Conversational AI: Automatisk talegenkendelse

Over 8k lydtimer indsamlet, 800 timer transskriberet til flersproget stemmeteknologi

Introduktion

Indien havde brug for en platform, der koncentrerer sig om at skabe flersprogede datasæt og AI-baserede sprogteknologiløsninger for at kunne levere digitale tjenester på indiske sprog. For at lancere dette initiativ gik klienten sammen med Shaip om at indsamle og transskribere indisk sprog for at bygge flersprogede talemodeller.

Bind

Timer med data indsamlet

Antal annoterede sider

10 +

Projektets varighed

< 1 måned

Udfordringer

For at hjælpe klienten med deres taleteknologiske køreplan for indiske sprog, var teamet nødt til at erhverve, segmentere og transskribere store mængder træningsdata for at bygge en AI-model. Kundens kritiske krav var:

Dataindsamling

Få 8000 timers træningsdata fra fjerntliggende steder i Indien
Leverandøren til at indsamle Spontantale fra Aldersgrupper på 20-70 år
Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekter
Hver lydoptagelse skal være mindst 16 kHz med 16 bit/sample.

Datatransskription

Følg detaljerede retningslinjer for transskription omkring tegn og specielle symboler, stavning og grammatik, store bogstaver, forkortelser, sammentrækninger, individuelle talte bogstaver, tal, tegnsætning, akronymer og initialer, uflydende tale, uforståelig tale, ikke-målsprog, ikke-tale

Kvalitetstjek og feedback

Alle optagelser skal gennemgå kvalitetsvurdering og validering, kun validerede taleoptagelser, der skal leveres

Løsning

Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, transskribere lyddataene med et team af ekspertsamlere, lingvister og annotatorer for at opbygge et stort korpus af lyddata fra fjerntliggende dele af Indien.

Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder lydtræningsdata, transskribere dataene og levere tilsvarende JSON-filer, der indeholdt metadataene [for både højttalere og transskriberere. For hver højttaler inkluderer metadataene et anonymiseret højttaler-id, enhedsdetaljer, demografiske oplysninger som køn, alder og uddannelse sammen med deres pinkode, socioøkonomiske status, talte sprog og en registrering af deres livs opholdsvarighed. For hver transskriberende inkorporerer dataene et anonymiseret transskriberings-id, demografiske detaljer, der ligner talernes, deres transskriptionsoplevelsesvarighed og en grundig opdeling af sprog, de kan læse, skrive og tale.

Shaip samlet 8000 timers lyddata / Spontan tale i skala og transskriberet 800 timer, samtidig med at de ønskede kvalitetsniveauer, der kræves for at træne taleteknologi til komplekse projekter, opretholdes. Formularen til eksplicit samtykke blev taget fra hver af deltagerne. Den/spontane tale, der blev indsamlet, var baseret på billeder fra universitetet. Af 3500 billeder, 1000 er generiske og 2500 relaterer til distriktsspecifik kultur, festivaler osv. Billeder viser forskellige domæner som togstationer, markeder, vejr og mere.

Dataindsamling

Tilstand	Distrikter	Audio Hrs	Transskription (Timer)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Uttarpradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Nord+Syd Goa	100	10
Karnataka	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
I alt		8000	800

Generelle retningslinjer

dannet

- Lyd ved 16 kHz, 16 bits/sample.
- Enkelt kanal.
- Rå lyd uden omkodning.

stil

- Spontan tale.
- Sætninger baseret på universitetsleverede billeder. Ud af 3500 billeder er 1000 generiske og 2500 relaterer til distriktsspecifik kultur, festivaler osv. Billeder viser forskellige domæner som togstationer, markeder, vejr og mere.

Optagelsesbaggrund

- Optaget i et stille, ekkofrit miljø.
- Ingen smartphone-forstyrrelser (vibrationer eller meddelelser) under optagelse.
- Ingen forvrængninger som klipning eller fjernfeltseffekter.
- Vibrationer fra telefonen uacceptable; eksterne vibrationer er tolerable, hvis lyden er klar.

Højttaler Specifikation

- Aldersspænd fra 20-70 år med balanceret kønsfordeling pr. distrikt.
- Minimum 400 indfødte i hvert distrikt.
- Talere skal bruge deres hjemmesprog/dialekt.
- Samtykkeformularer er obligatoriske for alle deltagere.

Kvalitetstjek & Kritisk kvalitetssikring

QA-processen prioriterer kvalitetssikring af lydoptagelser og transskriptioner. Lydstandarder fokuserer på præcise stilheder, segmentvarighed, klarhed med en enkelt højttaler og detaljerede metadata, herunder alder og socioøkonomisk status. Transskriptionskriterier lægger vægt på tag-nøjagtighed, ords sandhed og korrekte segmentdetaljer. Acceptbenchmark dikterer, at hvis mere end 20 % af en lydbatch ikke opfylder disse standarder, bliver den afvist. Ved mindre end 20 % afvigelser kræves erstatningsoptagelser med lignende profiler.

Datatransskription

Retningslinjer for transskription understreger kun nøjagtighed og ordret transskription, når ordene er klare og forståelige; uklare ord er markeret som [uforståelige] eller [uhørbare] baseret på problemet. Sætningsgrænser i lang lyd er markeret med , og ingen omskrivning eller rettelse af grammatiske fejl er tilladt. Ordret transskription dækker over fejl, slangs og gentagelser, men udelader falske starter, udfyldningslyde og hakken. Baggrunds- og forgrundsstøj transskriberes med beskrivende tags, mens egennavne, titler og numre følger specifikke transskriptionsregler. Højttaleretiketter bruges til hver sætning, og ufuldstændige sætninger er angivet med.

Projekt Workflow

Workflowet beskriver lydtransskriptionsprocessen. Det starter med onboarding og træning af deltagere. De optager lyd ved hjælp af en app, som uploades til en QA-platform. Denne lyd gennemgår kvalitetstjek og automatisk segmentering. Teknologiteamet forbereder derefter segmenter til transskription. Efter manuel transskription er der et kvalitetssikringstrin. Transskriptioner leveres til klienten, og hvis de accepteres, anses leveringen for at være afsluttet. Hvis ikke, foretages revisioner baseret på kundefeedback.

Resultat

Lyddata af høj kvalitet fra ekspert-lingvister vil gøre vores klient i stand til præcist at træne og bygge flersprogede talegenkendelsesmodeller på forskellige indiske sprog med forskellige dialekter inden for den fastsatte tid. Talegenkendelsesmodellerne kan bruges til at:

Overvind sprogbarrieren for digital inklusion ved at knytte borgerne til initiativerne på deres eget modersmål.
Fremmer Digital Governance
Katalysator til at danne et økosystem for tjenester og produkter på indiske sprog
Mere lokaliseret digitalt indhold inden for områder af offentlig interesse, især regeringsførelse og politik

Vi er i ærefrygt over Shaips ekspertise inden for konversations-AI-området. Opgaven med at håndtere 8000 timers lyddata sammen med 800 timers transskription på tværs af 80 forskellige distrikter var mildest talt monumental. Det var Shaips dybe forståelse af de indviklede detaljer og nuancer i dette domæne, der gjorde den succesfulde udførelse af et så udfordrende projekt muligt. Deres evne til problemfrit at administrere og navigere gennem kompleksiteten af denne enorme mængde data, mens de sikrer førsteklasses kvalitet, er virkelig prisværdigt.

Fremskynde din samtale AI
applikationsudvikling med 100%

Conversational AI: Automatisk talegenkendelse

Over 8k lydtimer indsamlet, 800 timer transskriberet til flersproget stemmeteknologi

Introduktion

Bind

Udfordringer

Dataindsamling

Datatransskription

Kvalitetstjek og feedback

Løsning

Generelle retningslinjer

Kvalitetstjek & Kritisk kvalitetssikring

Datatransskription

Projekt Workflow

Resultat

AI-datatjenester

Specialiseret

Industri

Produkter

Om os

Ressourcer

Kontakt os

Fortæl os mere om dig!