Hindi datasæt
हिंदी डेटासेट
Højkvalitets datasæt om callcenter, generel samtale og podcasts på hindi til AI- og ASR-modeller
Oversigt
Titel (sprog)
Hindi-sprogdatasæt
Datasættyper
Callcenter, Generel samtale, Medier (podcast), Skrevet monolog
Land
Indien
Beskrivelse
Uscripterede telefonsamtaler mellem to personer er tilgængelige med varigheder på 15 til 60 minutter, sammen med licenserbare public domain lyd- eller videofiler såsom interviews og podcasts med 1 til 5 deltagere i samme interval. Derudover varer optagelser af enkeltstående ytringer typisk 5 til 30 sekunder, og scriptede monologdata er også tilgængelige.
Use Case
ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
Datasætdetaljer
| Datasættype | Sampling Rate | Højttalere | Kanal | Samlede timer | Samlet antal højttalere |
|---|---|---|---|---|---|
| Call center | 8 kHz | 2 højttalere | Dual | 70:45:51 | På forespørgsel |
| Call center | 8 kHz | 2 højttalere | Mono | 20,000:00:00 | På forespørgsel |
| Call center | 16 kHz | 2 højttalere | Mono | 29:17:20 | 261 |
| Call center | 16 kHz | 2 højttalere | Dual | 400:27:10 | 1200 |
| Generel samtale | 8 kHz | 2 højttalere | Dual | 47:48:40 | 224 |
| Mediedata | 16 kHz | Flere højttalere | Mono | 227:57:43 | 438 |
| Manuskriptmonolog | 48 kHz | Enkel højttaler | Mono | 2,866:00:00 | 3,988 |
| Manuskriptmonolog | 24 kHz | Enkel højttaler | Mono | 29,000:00:00 | På forespørgsel |
Fremhævede klienter
Styrke teams til at opbygge verdensledende AI-produkter.
Kan du ikke finde det, du leder efter?
Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper
Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning