Casestudie: Automatisk talegenkendelse
Over 8k lydtimer indsamlet, 800 timer transskriberet til flersproget stemmeteknologi
Introduktion
Indien havde brug for en platform, der koncentrerer sig om at skabe flersprogede datasæt og AI-baserede sprogteknologiløsninger for at kunne levere digitale tjenester på indiske sprog. For at lancere dette initiativ gik klienten sammen med Shaip om at indsamle og transskribere indisk sprog for at bygge flersprogede talemodeller.
Bind
Udfordringer
For at hjælpe klienten med deres taleteknologiske køreplan for indiske sprog, var teamet nødt til at erhverve, segmentere og transskribere store mængder træningsdata for at bygge en AI-model. Kundens kritiske krav var:
Dataindsamling
- Få 8000 timers træningsdata fra fjerntliggende steder i Indien
- Leverandøren til at indsamle Spontantale fra Aldersgrupper på 20-70 år
- Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekter
- Hver lydoptagelse skal være mindst 16 kHz med 16 bit/sample.
Datatransskription
Følg detaljerede retningslinjer for transskription omkring tegn og specielle symboler, stavning og grammatik, store bogstaver, forkortelser, sammentrækninger, individuelle talte bogstaver, tal, tegnsætning, akronymer og initialer, uflydende tale, uforståelig tale, ikke-målsprog, ikke-tale
Kvalitetstjek og feedback
Alle optagelser skal gennemgå kvalitetsvurdering og validering, kun validerede taleoptagelser, der skal leveres
Løsning
Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, transskribere lyddataene med et team af ekspertsamlere, lingvister og annotatorer for at opbygge et stort korpus af lyddata fra fjerntliggende dele af Indien.
Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder lydtræningsdata, transskribere dataene og levere tilsvarende JSON-filer, der indeholdt metadataene [for både højttalere og transskriberere. For hver højttaler inkluderer metadataene et anonymiseret højttaler-id, enhedsdetaljer, demografiske oplysninger som køn, alder og uddannelse sammen med deres pinkode, socioøkonomiske status, talte sprog og en registrering af deres livs opholdsvarighed. For hver transskriberende inkorporerer dataene et anonymiseret transskriberings-id, demografiske detaljer, der ligner talernes, deres transskriptionsoplevelsesvarighed og en grundig opdeling af sprog, de kan læse, skrive og tale.
Shaip samlet 8000 timers lyddata / Spontan tale i skala og transskriberet 800 timer, samtidig med at de ønskede kvalitetsniveauer, der kræves for at træne taleteknologi til komplekse projekter, opretholdes. Formularen til eksplicit samtykke blev taget fra hver af deltagerne. Den/spontane tale, der blev indsamlet, var baseret på billeder fra universitetet. Af 3500 billeder, 1000 er generiske og 2500 relaterer til distriktsspecifik kultur, festivaler osv. Billeder viser forskellige domæner som togstationer, markeder, vejr og mere.
Dataindsamling
Tilstand | Distrikter | Audio Hrs | Transskription (Timer) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Uttarpradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Nord+Syd Goa | 100 | 10 |
Karnataka | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
I alt | 8000 | 800 |
Generelle retningslinjer
dannet
- Lyd ved 16 kHz, 16 bits/sample.
- Enkelt kanal.
- Rå lyd uden omkodning.
stil
- Spontan tale.
- Sætninger baseret på universitetsleverede billeder. Ud af 3500 billeder er 1000 generiske og 2500 relaterer til distriktsspecifik kultur, festivaler osv. Billeder viser forskellige domæner som togstationer, markeder, vejr og mere.
Optagelsesbaggrund
- Optaget i et stille, ekkofrit miljø.
- Ingen smartphone-forstyrrelser (vibrationer eller meddelelser) under optagelse.
- Ingen forvrængninger som klipning eller fjernfeltseffekter.
- Vibrationer fra telefonen uacceptable; eksterne vibrationer er tolerable, hvis lyden er klar.
Højttaler Specifikation
- Aldersspænd fra 20-70 år med balanceret kønsfordeling pr. distrikt.
- Minimum 400 indfødte i hvert distrikt.
- Talere skal bruge deres hjemmesprog/dialekt.
- Samtykkeformularer er obligatoriske for alle deltagere.
Kvalitetstjek & Kritisk kvalitetssikring
QA-processen prioriterer kvalitetssikring af lydoptagelser og transskriptioner. Lydstandarder fokuserer på præcise stilheder, segmentvarighed, klarhed med en enkelt højttaler og detaljerede metadata, herunder alder og socioøkonomisk status. Transskriptionskriterier lægger vægt på tag-nøjagtighed, ords sandhed og korrekte segmentdetaljer. Acceptbenchmark dikterer, at hvis mere end 20 % af en lydbatch ikke opfylder disse standarder, bliver den afvist. Ved mindre end 20 % afvigelser kræves erstatningsoptagelser med lignende profiler.
Datatransskription
Retningslinjer for transskription understreger kun nøjagtighed og ordret transskription, når ordene er klare og forståelige; uklare ord er markeret som [uforståelige] eller [uhørbare] baseret på problemet. Sætningsgrænser i lang lyd er markeret med , og ingen omskrivning eller rettelse af grammatiske fejl er tilladt. Ordret transskription dækker over fejl, slangs og gentagelser, men udelader falske starter, udfyldningslyde og hakken. Baggrunds- og forgrundsstøj transskriberes med beskrivende tags, mens egennavne, titler og numre følger specifikke transskriptionsregler. Højttaleretiketter bruges til hver sætning, og ufuldstændige sætninger er angivet med.
Projekt Workflow
Workflowet beskriver lydtransskriptionsprocessen. Det starter med onboarding og træning af deltagere. De optager lyd ved hjælp af en app, som uploades til en QA-platform. Denne lyd gennemgår kvalitetstjek og automatisk segmentering. Teknologiteamet forbereder derefter segmenter til transskription. Efter manuel transskription er der et kvalitetssikringstrin. Transskriptioner leveres til klienten, og hvis de accepteres, anses leveringen for at være afsluttet. Hvis ikke, foretages revisioner baseret på kundefeedback.
Resultat
Lyddata af høj kvalitet fra ekspert-lingvister vil gøre vores klient i stand til præcist at træne og bygge flersprogede talegenkendelsesmodeller på forskellige indiske sprog med forskellige dialekter inden for den fastsatte tid. Talegenkendelsesmodellerne kan bruges til at:
- Overvind sprogbarrieren for digital inklusion ved at knytte borgerne til initiativerne på deres eget modersmål.
- Fremmer Digital Governance
- Katalysator til at danne et økosystem for tjenester og produkter på indiske sprog
- Mere lokaliseret digitalt indhold inden for områder af offentlig interesse, især regeringsførelse og politik
Vi er i ærefrygt over Shaips ekspertise inden for konversations-AI-området. Opgaven med at håndtere 8000 timers lyddata sammen med 800 timers transskription på tværs af 80 forskellige distrikter var mildest talt monumental. Det var Shaips dybe forståelse af de indviklede detaljer og nuancer i dette domæne, der gjorde den succesfulde udførelse af et så udfordrende projekt muligt. Deres evne til problemfrit at administrere og navigere gennem kompleksiteten af denne enorme mængde data, mens de sikrer førsteklasses kvalitet, er virkelig prisværdigt.