Dansk Datasæt
Dansk Datasæt
Dansk Generel Samtale-, TTS- og Podcast-datasæt af høj kvalitet til AI- og talemodeller
Oversigt
Titel (sprog)
Dansk Sprog Datasæt
Datasættyper
Callcenter, Generel samtale, Mediedata (Podcastdata), Skrevet monolog
Land
Danmark
Produktbeskrivelse
Uscripterede telefonsamtaler mellem to personer er tilgængelige med en varighed på cirka 15 til 60 minutter. Licenserbare lyd- eller videofiler i det offentlige domæne, såsom interviews eller podcasts med 1 til 5 deltagere, varierer også fra 15 til 60 minutter. Derudover varierer optagelser af enkeltstående ytringer på dansk fra Danmark typisk fra 5 til 30 sekunder.
Use Case
ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
Datasætdetaljer
| Datasættype | Sampling Rate | Højttalere | Kanal | Samlede timer | Samlet antal højttalere |
|---|---|---|---|---|---|
| Call center | 8 kHz | 2 højttalere | Mono | 2,000:00:00 | På forespørgsel |
| Generel samtale | 8 kHz | 2 højttalere | Dual | 356:29:47 | 700 |
| Mediedata | 16 kHz | Flere højttalere | Mono | 665:16:30 | 1,261 |
| Manuskriptmonolog | 48 kHz | Enkel højttaler | Mono | 2,496:00:00 | 2,825 |
Fremhævede klienter
Styrke teams til at opbygge verdensledende AI-produkter.
Kan du ikke finde det, du leder efter?
Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper
Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning