I et land så kulturelt mangfoldigt og sprogligt rigt som Indien begynder opbygningen af inkluderende kunstig intelligens med indsamling af repræsentative datasæt af høj kvalitet. Det er visionen bag Projekt Vaani—et storstilet open source-initiativ ledet af ARTPARK, IISc Bengaluruog Google, med det formål at give stemme til alle indiske sprog og dialekter.
Det ambitiøse mål? At samle 150,000+ timers tale og 15,000+ timers transskriptioner fra 1 millioner mennesker tværs 773 distrikter af Indien.
Som en af nøgleleverandørerne til denne nationale mission, Saip spillede en central rolle i at kurere spontane taledata, transskription og metadataindsamling - og lægge grundlaget for retfærdige stemmeteknologier, der virkelig repræsenterer det virkelige Indien.
Visionen bag Project Vaani
Project Vaani er designet til at bygge bro over AI-inklusionskløften ved at skabe største multimodale, flersprogede, open source-datasæt i Indien. Disse data er grundlaget for udvikling af nøjagtige talegenkendelse, oversættelse og generative AI-systemer på indiske sprog, hvoraf mange er underrepræsenteret i globale teknologiske økosystemer.
Den langsigtede vision er at drive effektfulde applikationer i:
- Medicinal – Stemmebaseret telemedicin
- Uddannelse – Vernakulære læringsplatforme
- Governance – Samtalegrænseflader for borgerservice
- Tilgængelighed – Stemmeværktøjer til brugere med forskellig funktion
- Katastrofe respons – Realtidskommunikation på lokale dialekter
Hvordan Shaip hjalp med at opbygge Indiens største open source-taledatasæt til Project Vaani
Shaip blev betroet indsamlingen af 8,000 timers spontan tale og 800 timers manuelt verificerede transskriptioner. Vores ansvar spændte over højttaleronboarding, lydoptagelse, metadatatagging, transskriptionskoordinering og kvalitetskontrol.
8,000 timer af spontane lyddata
Optagelser fra 400+ modersmål pr. distrikt, repræsenterer forskellige aldersgrupper, køn og dialekter
80 distrikter, dækket
Billedbaseret prompt for at sikre naturlig, kontekstuel tale
Her er hvad der gjorde vores tilgang unik:

Diversitet på distriktsniveau
Vi hentede optagelser fra 80 distrikter spredt på tværs af stater som Bihar, Uttar Pradesh, Karnataka, Vestbengalen og Maharashtra. Hvert distrikt bidrog med 100 timers lyddata, hvilket sikrede regional balance. Vi engagerede indfødte talere og sikrede repræsentation af regionale accenter og dialekter, der ofte overses i almindelige AI-datasæt.

Sproglig og demografisk repræsentation
Vi hentede optagelser fra 80 distrikter spredt på tværs af stater som Bihar, Uttar Pradesh, Karnataka, Vestbengalen og Maharashtra. Hvert distrikt bidrog med 100 timers lyddata, hvilket sikrede regional balance. Vi engagerede indfødte talere og sikrede repræsentation af regionale accenter og dialekter, der ofte overses i almindelige AI-datasæt.

Billed-anmodet tale
For at stimulere spontant og naturligt ordforråd fik deltagerne vist 45-90 billeder pr. session og bedt om at beskrive dem. Deltagerne blev bedt om at bruge forskellige billeder - lige fra kulturelle symboler til hverdagsgenstande - for at fremkalde naturlige, spontane reaktioner på deres modersmål. Dette sikrede, at optagelser afspejlede kontekstuel tale fra den virkelige verden - afgørende for træning af avancerede NLP-systemer.

Transskriptionsstandarder af høj kvalitet
Kun 10 % af taledata blev transskriberet - svarende til 800 timer. Transskriptioner blev udført af lokale lingvister inden for en radius på 20-50 km fra taleren, hvilket sikrede kendskab til dialekter og nuancer. En anden-lagskontrol sikrede <5 % ordfejlrate (WER).

Streng kvalitetssikring
Lyddata skulle opfylde en høj bar: ingen baggrundsstøj, ekko, telefonvibrationer eller forvrængninger. Lyden blev optaget i stille, ekkofrie omgivelser. Filer gennemgik grundig gennemgang for at opfylde retningslinjer for taleklarhed, støjniveauer, metadata-nøjagtighed og højttalerbekræftelse. Metadatatagging skulle være nøjagtig på tværs af alle filer, og alle optagelser blev kontrolleret for højttaler- og placeringsjustering.
Udfordringer vi løste
- Fjernlogistik – Ledelse af teams på tværs af 80 distrikter
- Taler mangfoldighed – Onboarding af 32,000+ verificerede højttalere på fjerntliggende steder
- Kulturel følsomhed – Respektere lokale skikke og dialekter
- Dataintegritet – Opfyldelse af kvalitets- og overholdelsesstandarder
- Kvalitetskontrol – på tværs af flere sproglige og kulturelle sammenhænge
Vores succes kom ned til omhyggelig planlægning, teknologidrevet validering og partnerskaber med lokale teams, der forstod de kulturelle nuancer i hver region.
Effekt og applikationer
Shaips bidrag har ikke kun fremskyndet fremskridtene i Project Vaani, men også lagt grundlaget for inkluderende kunstig intelligens i Indien. Det kuraterede taledatasæt bliver allerede brugt til at bygge og finjustere AI-modeller til:
- Folkesproget stemmeassistenter
- Regionale oversættelsesmaskiner
- Tilgængelige kommunikationsværktøjer for synshandicappede
- AI-drevne edtech-platforme for studerende på landet
- Landdistrikternes telemedicin
- Stemmebaserede borgerservices
- Oversættelse og transskription i realtid
Konklusion
Project Vaani er et modigt skridt i retning af inkluderende, tilgængelig AI – og Shaip er beæret over at spille en grundlæggende rolle. Shaips arbejde med Project Vaani bekræfter vores forpligtelse til at bygge etiske, inkluderende AI-systemer med rod i mangfoldighed og repræsentation. Med over 8,000 timers tale indsamlet og 800 timer transskriberet, er vi stolte over at have spillet en rolle i et af Indiens mest visionære digitale inklusionsprojekter.
Mens Project Vaani fortsætter mod sit større mål om 150,000+ timers data, står vi klar til at støtte den næste grænse for AI-innovation, der taler til – og for – hver indianer.
Vil du samarbejde med os om at bygge kunstig intelligens, der forstår den virkelige verden? www.shaip.com


