Casestudie: Ytringsindsamling
Leveret 7M+ ytringer til at bygge flersprogede digitale assistenter på 13 sprog
Virkelig verdens løsning
Data, der styrer globale samtaler
Behovet for Udtalingstræning opstår, fordi ikke alle kunder bruger de nøjagtige ord eller sætninger, mens de interagerer eller stiller spørgsmål til deres stemmeassistenter i et scriptformat. Det er derfor, specifikke stemmeapplikationer skal trænes i spontane taledata. F.eks. "Hvor er det nærmeste hospital placeret?" "Find et hospital i nærheden af mig" eller "Er der et hospital i nærheden?" alle angiver den samme søgehensigt, men er formuleret forskelligt.
Problem
For at udføre klienters Digital Assistants talekøreplan for verdensomspændende sprog, var teamet nødt til at erhverve store mængder træningsdata til talegenkendelses AI-modellen. Kundens kritiske krav var:
- Indhent store mængder træningsdata (enkelttalers ytringsprompter på højst 3-30 sekunder lange) til talegenkendelsestjenester på 13 globale sprog
- For hvert sprog vil leverandøren generere tekstbeskeder, som højttalere skal optage (medmindre
klientforsyninger) og transskribere den resulterende lyd. - Giv lyddata og transskription af optagede ytringer med tilsvarende JSON-filer
indeholdende metadata for alle optagelser. - Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekt
- Sørg for en mangfoldig blanding af optagemiljøer i henhold til specifikationerne.
- Hver lydoptagelse skal være mindst 16 kHz, men helst 44 kHz
"Efter at have evalueret mange leverandører, valgte kunden Shaip på grund af deres ekspertise i samtale-AI-projekter. Vi var imponerede over Shaips projektgennemførelseskompetence, deres ekspertise til at kilde, transskribere og levere de påkrævede ytringer fra ekspertlingvister på 13 sprog inden for stringente tidsplaner og med den krævede kvalitet.”
Løsning
Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, transskribere og kommentere dataene med et team af ekspertlingvister og annotatorer for at træne deres AI-drevne talebearbejdning flersprogede Voice Suite.
Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder lydtræningsdata til talegenkendelse, transskribere lydoptagelser på flere sprog for alle sprog på vores Tier 1 og Tier 2 sprog roadmap og levere tilsvarende JSON filer, der indeholder metadata. Shaip indsamlede ytringer på 3-30 sekunder i skala og bibeholdt de ønskede kvalitetsniveauer, der kræves for at træne ML-modeller til komplekse projekter.
- Lyd indsamlet, transskriberet og kommenteret: 22,250 timer
- Understøttede sprog: 13 (dansk, koreansk, saudiarabisk arabisk, hollandsk, fastlands- og taiwanesisk kinesisk, fransk-canadisk, mexicansk spansk, tyrkisk, hindi, polsk, japansk, russisk)
- Antal ytringer: 7M +
- Tidslinje: 7-8 måneder
Mens vi indsamlede lydytringer ved 16 kHz, sikrede vi en sund blanding af højttalere efter alder, køn, uddannelse og dialekter i forskellige optagemiljøer.
Resultat
Ytringslyddata af høj kvalitet fra ekspertlingvister gav klienten mulighed for præcist at træne deres flersprogede talegenkendelsesmodel på 13 Global Tier 1 & 2-sprog. Med træningsdatasæt af guldstandard kan klienten tilbyde intelligent og robust digital assistance til at løse fremtidige problemer i den virkelige verden.
Vores ekspertise
Anbefalede ressourcer
Købervejledning
Købervejledning: Conversational AI
Den chatbot, du har talt med, kører på et avanceret konversations-AI-system, der er trænet, testet og bygget ved hjælp af tonsvis af talegenkendelsesdatasæt.
Blog
Staten med samtale AI 2021
Conversational AI 2021-infografikken taler om, hvad der er Conversational AI, dets udvikling, typer, Conversational AI Market efter region, brugssager, udfordringer osv.
Blog
3 Hindringer for udviklingen af konversations AI
Shaip sætter gang i udviklingen af samtale-AI som et kundeengagementværktøj ved at tilbyde de nødvendige kommenterede lyddata på over 50 sprog.
Fortæl os, hvordan vi kan hjælpe med dit næste AI-initiativ.