Casestudie: Samtaler AI

Over 3k timers data indsamlet, segmenteret og transskriberet for at bygge ASR på 8 indiske sprog

Ytringssamling
Regeringen sigter mod at give sine borgere nem adgang til internet og digitale tjenester på deres eget modersmål gennem Bhashini-projektet.

BHASHINI, Indiens AI-drevne sprogoversættelsesplatform, er en vital del af Digital India-initiativet.

Designet til at levere kunstig intelligens (AI) og Natural Language Processing (NLP) værktøjer til MSME'er, startups og uafhængige innovatører, fungerer Bhashini-platformen som en offentlig ressource. Dens mål er at fremme digital inklusion ved at gøre det muligt for indiske borgere at interagere med landets digitale initiativer på deres modersmål.

Derudover sigter det mod betydeligt at udvide tilgængeligheden af ​​internetindhold på indiske sprog. Dette er især rettet mod områder af offentlig interesse såsom regeringsførelse og politik, videnskab og teknologi osv. Dette vil følgelig tilskynde borgerne til at bruge internettet på deres eget sprog og fremme deres aktive deltagelse.

Udnyt NLP for at muliggøre et mangfoldigt økosystem af bidragydere, partneringsentiteter og borgere med det formål at overskride sprogbarrierer og derved sikre digital inklusion og empowerment

Virkelig verdens løsning

Frigør kraften ved lokalisering med data

Indien havde brug for en platform, der ville koncentrere sig om at skabe flersprogede datasæt og AI-baserede sprogteknologiløsninger for at kunne levere digitale tjenester på indiske sprog. For at lancere dette initiativ samarbejdede Indian Institute of Technology, Madras (IIT Madras) med Shaip om at indsamle, segmentere og transskribere indiske sprogdatasæt for at bygge flersprogede talemodeller.

Udfordringer

For at hjælpe klienten med deres taleteknologiske køreplan for indiske sprog, var teamet nødt til at erhverve, segmentere og transskribere store mængder træningsdata for at bygge en AI-model. Kundens kritiske krav var:

Dataindsamling

  • Få 3000 timers træningsdata på 8 indiske sprog med 4 dialekter pr. sprog.
  • For hvert sprog vil leverandøren indsamle Extempore Speech og
    Samtaletale fra aldersgrupper på 18-60 år
  • Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekter
  • Sørg for en mangfoldig blanding af optagemiljøer i henhold til specifikationerne.
  • Hver lydoptagelse skal være mindst 16 kHz, men helst 44 kHz

Datasegmentering

  • Opret talesegmenter på 15 sekunder og tidsstempler lyden til millisekunder for hver given højttaler, lydtype (tale, pludren, musik, støj), vendinger, ytringer og sætninger i en samtale
  • Opret hvert segment til dets målrettede lydsignal med en 200-400 millisekunders polstring ved start og slut.
  • For alle segmenter skal følgende objekter udfyldes, dvs. starttidspunkt, sluttidspunkt, segment-id, lydstyrkeniveau, lydtype, sprogkode, højttaler-id osv.

Datatransskription

  • Følg detaljerede retningslinjer for transskription omkring tegn og specielle symboler, stavning og grammatik, store bogstaver, forkortelser, sammentrækninger, individuelle talte bogstaver, tal, tegnsætninger, akronymer, flydende, tale, uforståelig tale, ikke-målsprog, ikke-tale osv.

Kvalitetstjek og feedback

  • Alle optagelser skal gennemgå kvalitetsvurdering og validering, kun valideret tale skal leveres

Løsning

Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, segmentere og transskribere dataene med et team af ekspertsamlere, lingvister og annotatorer til at bygge et stort korpus af lyddatasæt på 8 indiske sprog

Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder af lydtræningsdata, segmentere lydoptagelserne i flere, transskribere dataene og levere tilsvarende JSON-filer indeholdende metadataene [SpeakerID, Age, Gender, Language, Dialect,
Modersmål, Kvalifikation, Beskæftigelse, Domæne, Filformat, Frekvens, Kanal, Lydtype, Antal højttalere, Antal fremmedsprog, brugt opsætning, Narrowband eller Wideband audio osv.]. 

Shaip indsamlede 3000 timers lyddata i skala, samtidig med at de ønskede kvalitetsniveauer blev opretholdt for at træne taleteknologi til komplekse projekter. Formularen til eksplicit samtykke blev taget fra hver af deltagerne.

1. Dataindsamling

2. Datasegmentering

  • Lyddataene, der blev indsamlet, blev yderligere opdelt i talesegmenter på 15 sekunder hver og tidsstemplet til millisekunder for hver given højttaler, type lyd, drejninger, ytringer og sætninger i en samtale
  • Oprettet hvert segment til dets målrettede lydsignal med en 200-400 millisekunders polstring i starten og slutningen af ​​et lydsignal.
  • For alle segmenter var følgende objekter til stede og udfyldt, dvs. starttidspunkt, sluttidspunkt, segment-id, lydstyrkeniveau (højt, normalt, stille), primær lydtype (tale, babbel, musik, støj, overlap), sprogkode højttaler-id, transskription osv.

3. Kvalitetstjek og feedback

  • Alle optagelser blev vurderet for kvalitet, og kun validerede taleoptagelser med WER på 90 % og TER på 90 % blev leveret
  • Kvalitetstjekliste fulgt:
       » Maks. 15 sekunders segmentlængde
       » Transskription fra specifikke domæner, nemlig: Vejr, forskellige typer nyheder, sundhed, landbrug, uddannelse, job eller finans
       » Lav baggrundsstøj
       » Intet lydklip fra – Ingen forvrængning
       »Korrekt lydsegmentering til transskription

4. Datatransskription
Alle talte ord, inklusive tøven, fyldord, falske start og andre verbale tics, blev fanget nøjagtigt i transskriptionen. Vi fulgte også detaljerede retningslinjer for transskription omkring store og små bogstaver, stavemåde, store bogstaver, forkortelser, sammentrækninger, tal,
tegnsætning, akronymer, flydende tale, ikke-tale støj osv. Desuden er arbejdsflowet, der følges for indsamling og transskription, som nedenfor:

Resultat

Lyddata af høj kvalitet fra ekspertlingvister vil gøre det indiske institut for teknologi – Madras i stand til præcist at træne og bygge flersprogede talegenkendelsesmodeller på 8 indiske sprog med forskellige dialekter inden for den fastsatte tid. Talegenkendelsesmodellerne kan bruges til at:

  • Overvind sprogbarrieren for digital inklusion ved at knytte borgerne til initiativerne på deres eget modersmål.
  • Fremmer Digital Governance
  • Katalysator til at danne et økosystem for tjenester og produkter på indiske sprog
  • Mere lokaliseret digitalt indhold inden for områder af offentlig interesse, især regeringsførelse og politik
Gylden-5-stjernet

Vi var imponerede over Shaips ekspertise inden for samtale-AI-rum. Deres overordnede projektudførelseskompetence fra indkøb, segmentering, transskribering og levering af de nødvendige træningsdata fra ekspertlingvister på 8 sprog inden for stringente tidsplaner og retningslinjer; og samtidig opretholde den acceptable kvalitetsstandard."

Fremskynde din samtale AI
applikationsudvikling med 100%

Fremhævede klienter

Styrke teams til at opbygge verdensledende AI-produkter.