Tamil datasæt

தமிழ் தரவுத்தொகுப்பு

Lås op for kraften i tamilske taledatasæt til ASR, TTS og samtalebaseret AI. Shaip tilbyder premium tamilske lyddatasæt til at træne smartere sprogmodeller.

Oversigt

Titel (sprog)

Tamilsk sprogdatasæt

Datasættyper

Callcenter, Generel samtale, Mediedata, Skrevet monolog

Land

Indien

Beskrivelse

Dette datasæt omfatter uskripterede syntetiske agent-kunde-samtaler (5-15 minutter), naturlige telefonsamtaler mellem mennesker (15-60 minutter) og mediedata med transskriptioner, der tilbyder forskellige taledata til træning og evaluering af tale- og sprogteknologier.

Use Case

ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling

Datasætdetaljer

Datasættype Sampling Rate Højttalere Kanal Samlede timer Samlet antal højttalere
Call center 8 kHz 2 højttalere Dual 124:23:52 484
Call center 16 kHz 2 højttalere Mono 199:44:21 1,986
Generel samtale 8 kHz 2 højttalere Dual 101:42:05 440
Generel samtale 48 kHz 2 højttalere Mono 80:21:16 141
Mediedata 16 kHz Flere højttalere Mono 43:07:01 32
Manuskriptmonolog 24 kHz Enkel højttaler Mono 500:00:00 På forespørgsel

Fremhævede klienter

Styrke teams til at opbygge verdensledende AI-produkter.

Amazon
Google
microsoft
Shaip kontakt os

Kan du ikke finde det, du leder efter?

Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper

Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning

  • Dette felt er til validering og bør overlades uændret.
  • Ved tilmelding er jeg enig med Shaip Privatlivspolitik og Servicevilkår og give mit samtykke til at modtage B2B marketingkommunikation fra Shaip.