Polsk datasæt
Polsk datasæt
Polske mediedata af høj kvalitet og manuskriptmonologer til AI og talemodeller
Oversigt
Titel (sprog)
Polsk sprogdatasæt
Datasættyper
Medier (podcast), manuskriptmonolog
Land
Polen
Beskrivelse
Dette datasæt indeholder licenserbare lyd- eller videofiler i det offentlige domæne, såsom interviews og podcasts med 1 til 5 deltagere (15-60 minutter), sammen med manuskriptbaserede monologer, hvor en enkelt taler leverer foruddefineret indhold til træning og evaluering af tale- og sprogmodeller.
Use Case
ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
Datasætdetaljer
| Datasættype | Sampling Rate | Højttalere | Kanal | Samlede timer | Samlet antal højttalere |
|---|---|---|---|---|---|
| Mediedata | 16 kHz | Multipal-højttalere | Mono | 268:56:51 | 532 |
| Manuskriptmonolog | 48 kHz | Enkel højttaler | Mono | 2,348:00:00 | 2,699 |
Fremhævede klienter
Styrke teams til at opbygge verdensledende AI-produkter.
Kan du ikke finde det, du leder efter?
Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper
Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning