Tamil datasæt
தமிழ் தரவுத்தொகுப்பு
Lås op for kraften i tamilske taledatasæt til ASR, TTS og samtalebaseret AI. Shaip tilbyder premium tamilske lyddatasæt til at træne smartere sprogmodeller.
Oversigt
Titel (sprog)
Tamilsk sprogdatasæt
Datasættyper
Callcenter, Generel samtale, Mediedata, Skrevet monolog
Land
Indien
Beskrivelse
Dette datasæt omfatter uskripterede syntetiske agent-kunde-samtaler (5-15 minutter), naturlige telefonsamtaler mellem mennesker (15-60 minutter) og mediedata med transskriptioner, der tilbyder forskellige taledata til træning og evaluering af tale- og sprogteknologier.
Use Case
ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
Datasætdetaljer
| Datasættype | Sampling Rate | Højttalere | Kanal | Samlede timer | Samlet antal højttalere |
|---|---|---|---|---|---|
| Call center | 8 kHz | 2 højttalere | Dual | 124:23:52 | 484 |
| Call center | 16 kHz | 2 højttalere | Mono | 199:44:21 | 1,986 |
| Generel samtale | 8 kHz | 2 højttalere | Dual | 101:42:05 | 440 |
| Generel samtale | 48 kHz | 2 højttalere | Mono | 80:21:16 | 141 |
| Mediedata | 16 kHz | Flere højttalere | Mono | 43:07:01 | 32 |
| Manuskriptmonolog | 24 kHz | Enkel højttaler | Mono | 500:00:00 | På forespørgsel |
Fremhævede klienter
Styrke teams til at opbygge verdensledende AI-produkter.
Kan du ikke finde det, du leder efter?
Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper
Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning