Koreansk datasæt

한국어 데이터셋

Koreansk callcenter-, manuskriptbaseret monolog- og medie-(podcast)-datasæt af høj kvalitet til AI- og talemodeller

Oversigt

Titel (sprog)

Koreansk sprogdatasæt

Datasættyper

Callcenter, mediedata, manuskriptmonolog

Land

Korea

Beskrivelse

Dette datasæt indeholder uscriptede telefonsamtaler mellem syntetiske agenter og kunder (5-15 minutter), licenserbare lyd-/videofiler i det offentlige domæne, såsom interviews og podcasts med 1 til 5 deltagere (15-60 minutter), og scriptede monologer med en enkelt taler, der leverer foruddefineret indhold til træning af tale- og sprogmodeller.

Use Case

ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling

Datasætdetaljer

Datasættype Sampling Rate Højttalere Kanal Samlede timer Samlet antal højttalere
Call center 8 kHz 2 højttalere Dual 102:27:55 1,244
Mediedata 16 kHz Flere højttalere Mono 203:46:54 397
Manuskriptmonolog 24 kHz Enkel højttaler Mono 500:00:00 På forespørgsel
Manuskriptmonolog 48 kHz Enkel højttaler Mono 1,955:00:00 På forespørgsel

Fremhævede klienter

Styrke teams til at opbygge verdensledende AI-produkter.

Amazon
Google
microsoft
Shaip kontakt os

Kan du ikke finde det, du leder efter?

Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper

Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning

  • Dette felt er til validering og bør overlades uændret.
  • Ved tilmelding er jeg enig med Shaip Privatlivspolitik og Servicevilkår og give mit samtykke til at modtage B2B marketingkommunikation fra Shaip.