Casestudie: Samtaler AI
Over 3k timers data indsamlet, segmenteret og transskriberet for at bygge ASR på 8 indiske sprog
BHASHINI, Indiens AI-drevne sprogoversættelsesplatform, er en vital del af Digital India-initiativet.
Designet til at levere kunstig intelligens (AI) og Natural Language Processing (NLP) værktøjer til MSME'er, startups og uafhængige innovatører, fungerer Bhashini-platformen som en offentlig ressource. Dens mål er at fremme digital inklusion ved at gøre det muligt for indiske borgere at interagere med landets digitale initiativer på deres modersmål.
Derudover sigter det mod betydeligt at udvide tilgængeligheden af internetindhold på indiske sprog. Dette er især rettet mod områder af offentlig interesse såsom regeringsførelse og politik, videnskab og teknologi osv. Dette vil følgelig tilskynde borgerne til at bruge internettet på deres eget sprog og fremme deres aktive deltagelse.
Udnyt NLP for at muliggøre et mangfoldigt økosystem af bidragydere, partneringsentiteter og borgere med det formål at overskride sprogbarrierer og derved sikre digital inklusion og empowerment
Virkelig verdens løsning
Frigør kraften ved lokalisering med data
Indien havde brug for en platform, der ville koncentrere sig om at skabe flersprogede datasæt og AI-baserede sprogteknologiløsninger for at kunne levere digitale tjenester på indiske sprog. For at lancere dette initiativ samarbejdede Indian Institute of Technology, Madras (IIT Madras) med Shaip om at indsamle, segmentere og transskribere indiske sprogdatasæt for at bygge flersprogede talemodeller.
Udfordringer
For at hjælpe klienten med deres taleteknologiske køreplan for indiske sprog, var teamet nødt til at erhverve, segmentere og transskribere store mængder træningsdata for at bygge en AI-model. Kundens kritiske krav var:
Dataindsamling
- Få 3000 timers træningsdata på 8 indiske sprog med 4 dialekter pr. sprog.
- For hvert sprog vil leverandøren indsamle Extempore Speech og
Samtaletale fra aldersgrupper på 18-60 år - Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekter
- Sørg for en mangfoldig blanding af optagemiljøer i henhold til specifikationerne.
- Hver lydoptagelse skal være mindst 16 kHz, men helst 44 kHz
Datasegmentering
- Opret talesegmenter på 15 sekunder og tidsstempler lyden til millisekunder for hver given højttaler, lydtype (tale, pludren, musik, støj), vendinger, ytringer og sætninger i en samtale
- Opret hvert segment til dets målrettede lydsignal med en 200-400 millisekunders polstring ved start og slut.
- For alle segmenter skal følgende objekter udfyldes, dvs. starttidspunkt, sluttidspunkt, segment-id, lydstyrkeniveau, lydtype, sprogkode, højttaler-id osv.
Datatransskription
- Følg detaljerede retningslinjer for transskription omkring tegn og specielle symboler, stavning og grammatik, store bogstaver, forkortelser, sammentrækninger, individuelle talte bogstaver, tal, tegnsætninger, akronymer, flydende, tale, uforståelig tale, ikke-målsprog, ikke-tale osv.
Kvalitetstjek og feedback
- Alle optagelser skal gennemgå kvalitetsvurdering og validering, kun valideret tale skal leveres
Løsning
Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, segmentere og transskribere dataene med et team af ekspertsamlere, lingvister og annotatorer til at bygge et stort korpus af lyddatasæt på 8 indiske sprog
Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder af lydtræningsdata, segmentere lydoptagelserne i flere, transskribere dataene og levere tilsvarende JSON-filer indeholdende metadataene [SpeakerID, Age, Gender, Language, Dialect,
Modersmål, Kvalifikation, Beskæftigelse, Domæne, Filformat, Frekvens, Kanal, Lydtype, Antal højttalere, Antal fremmedsprog, brugt opsætning, Narrowband eller Wideband audio osv.].
Shaip indsamlede 3000 timers lyddata i skala, samtidig med at de ønskede kvalitetsniveauer blev opretholdt for at træne taleteknologi til komplekse projekter. Formularen til eksplicit samtykke blev taget fra hver af deltagerne.
1. Dataindsamling