Hindi datasæt

हिंदी डेटासेट

Højkvalitets datasæt om callcenter, generel samtale og podcasts på hindi til AI- og ASR-modeller

Oversigt

Titel (sprog)

Hindi-sprogdatasæt

Datasættyper

Callcenter, Generel samtale, Medier (podcast), Skrevet monolog

Land

Indien

Beskrivelse

Uscripterede telefonsamtaler mellem to personer er tilgængelige med varigheder på 15 til 60 minutter, sammen med licenserbare public domain lyd- eller videofiler såsom interviews og podcasts med 1 til 5 deltagere i samme interval. Derudover varer optagelser af enkeltstående ytringer typisk 5 til 30 sekunder, og scriptede monologdata er også tilgængelige.

Use Case

ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling

Datasætdetaljer

Datasættype Sampling Rate Højttalere Kanal Samlede timer Samlet antal højttalere
Call center 8 kHz 2 højttalere Dual 70:45:51 På forespørgsel
Call center 8 kHz 2 højttalere Mono 20,000:00:00 På forespørgsel
Call center 16 kHz 2 højttalere Mono 29:17:20 261
Call center 16 kHz 2 højttalere Dual 400:27:10 1200
Generel samtale 8 kHz 2 højttalere Dual 47:48:40 224
Mediedata 16 kHz Flere højttalere Mono 227:57:43 438
Manuskriptmonolog 48 kHz Enkel højttaler Mono 2,866:00:00 3,988
Manuskriptmonolog 24 kHz Enkel højttaler Mono 29,000:00:00 På forespørgsel

Fremhævede klienter

Styrke teams til at opbygge verdensledende AI-produkter.

Amazon
Google
microsoft
Shaip kontakt os

Kan du ikke finde det, du leder efter?

Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper

Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning

  • Dette felt er til validering og bør overlades uændret.
  • Ved tilmelding er jeg enig med Shaip Privatlivspolitik og Servicevilkår og give mit samtykke til at modtage B2B marketingkommunikation fra Shaip.