Definition
Indsamling af lyddata er processen med at indsamle rå lydoptagelser for at træne og evaluere AI-systemer. Data kan omfatte tale, musik eller miljølyde.
Formål
Formålet er at skabe repræsentative datasæt, der gør det muligt for lydmodeller at fungere pålideligt på tværs af accenter, miljøer og enheder.
Vigtighed
- Essentiel for træning af robuste tale- og audiosystemer.
- Skal tages i betragtning af diversitet (sprog, forhold) for at undgå bias.
- Kræver stærke privatlivs- og samtykkeforanstaltninger for optagede stemmer.
- Kvaliteten af indsamlingen påvirker AI'ens ydeevne downstream.
Hvordan det virker
- Definer målene (f.eks. talegenkendelse, lyddetektion).
- Vælg optageenheder og -miljøer.
- Rekrutter talere eller saml naturlige optagelser.
- Optag lyd, mens du kontrollerer støj og kvalitet.
- Gem optagelser med metadata til senere brug.
Eksempler (den virkelige verden)
- Google Speech Commands: crowdsourcet datasæt af talte kommandoer.
- UrbanSound8K: datasæt af mærkede miljølyde.
- LibriSpeech: lydbogsafledt korpus til ASR-forskning.
Referencer / Yderligere læsning
- Retningslinjer for indsamling af taledata — Linguistic Data Consortium.
- Datasæt til lydgenkendelse — Papers With Code.
- ISO/IEC TR 20547-5: Referencearkitektur for big data — ISO.
- Indsamling af lyddata – Shaip