Casestudie: Ytringsindsamling

Leveret 7M+ ytringer til at bygge flersprogede digitale assistenter på 13 sprog

Virkelig verdens løsning

Data, der styrer globale samtaler

Behovet for Udtalingstræning opstår, fordi ikke alle kunder bruger de nøjagtige ord eller sætninger, mens de interagerer eller stiller spørgsmål til deres stemmeassistenter i et scriptformat. Det er derfor, specifikke stemmeapplikationer skal trænes i spontane taledata. F.eks. "Hvor er det nærmeste hospital placeret?" "Find et hospital i nærheden af mig" eller "Er der et hospital i nærheden?" alle angiver den samme søgehensigt, men er formuleret forskelligt.

Problem

For at udføre klienters Digital Assistants talekøreplan for verdensomspændende sprog, var teamet nødt til at erhverve store mængder træningsdata til talegenkendelses AI-modellen. Kundens kritiske krav var:

Indhent store mængder træningsdata (enkelttalers ytringsprompter på højst 3-30 sekunder lange) til talegenkendelsestjenester på 13 globale sprog
For hvert sprog vil leverandøren generere tekstbeskeder, som højttalere skal optage (medmindre
klientforsyninger) og transskribere den resulterende lyd.
Giv lyddata og transskription af optagede ytringer med tilsvarende JSON-filer
indeholdende metadata for alle optagelser.
Sikre en mangfoldig blanding af talere efter alder, køn, uddannelse og dialekt
Sørg for en mangfoldig blanding af optagemiljøer i henhold til specifikationerne.
Hver lydoptagelse skal være mindst 16 kHz, men helst 44 kHz

Fremskynde din samtale AI
applikationsudvikling med 100%

"Efter at have evalueret mange leverandører, valgte kunden Shaip på grund af deres ekspertise i samtale-AI-projekter. Vi var imponerede over Shaips projektgennemførelseskompetence, deres ekspertise til at kilde, transskribere og levere de påkrævede ytringer fra ekspertlingvister på 13 sprog inden for stringente tidsplaner og med den krævede kvalitet.”

Løsning

Med vores dybe forståelse af konversations-AI hjalp vi klienten med at indsamle, transskribere og kommentere dataene med et team af ekspertlingvister og annotatorer for at træne deres AI-drevne talebearbejdning flersprogede Voice Suite.

Arbejdet for Shaip omfattede, men var ikke begrænset til, at erhverve store mængder lydtræningsdata til talegenkendelse, transskribere lydoptagelser på flere sprog for alle sprog på vores Tier 1 og Tier 2 sprog roadmap og levere tilsvarende JSON filer, der indeholder metadata. Shaip indsamlede ytringer på 3-30 sekunder i skala og bibeholdt de ønskede kvalitetsniveauer, der kræves for at træne ML-modeller til komplekse projekter.

Lyd indsamlet, transskriberet og kommenteret: 22,250 timer
Understøttede sprog: 13 (dansk, koreansk, saudiarabisk arabisk, hollandsk, fastlands- og taiwanesisk kinesisk, fransk-canadisk, mexicansk spansk, tyrkisk, hindi, polsk, japansk, russisk)
Antal ytringer: 7M +
Tidslinje: 7-8 måneder

Mens vi indsamlede lydytringer ved 16 kHz, sikrede vi en sund blanding af højttalere efter alder, køn, uddannelse og dialekter i forskellige optagemiljøer.

Resultat

Ytringslyddata af høj kvalitet fra ekspertlingvister gav klienten mulighed for præcist at træne deres flersprogede talegenkendelsesmodel på 13 Global Tier 1 & 2-sprog. Med træningsdatasæt af guldstandard kan klienten tilbyde intelligent og robust digital assistance til at løse fremtidige problemer i den virkelige verden.

Vores ekspertise

Timer af tale indsamlet

0 +

Team af stemmedataindsamlere

PII-kompatibel

0 %

Cool nummer

0 +

Dataaccept og nøjagtighed

> 0

Fortune 500 kundekreds

0 +

Anbefalede ressourcer

Købervejledning

Købervejledning: Conversational AI

Den chatbot, du har talt med, kører på et avanceret konversations-AI-system, der er trænet, testet og bygget ved hjælp af tonsvis af talegenkendelsesdatasæt.

Blog

Staten med samtale AI 2021

Conversational AI 2021-infografikken taler om, hvad der er Conversational AI, dets udvikling, typer, Conversational AI Market efter region, brugssager, udfordringer osv.

Blog

3 Hindringer for udviklingen af konversations AI

Shaip sætter gang i udviklingen af samtale-AI som et kundeengagementværktøj ved at tilbyde de nødvendige kommenterede lyddata på over 50 sprog.

Oprettelse af klinisk NLP er en kritisk opgave, der kræver enorm domæneekspertise at løse. Jeg kan tydeligt se, at du er flere år foran Google på dette område. Jeg vil arbejde med dig og skalere dig.

Google, Inc. Direktør

Mit ingeniørhold arbejdede med Shaips team i mere end 2 år under udviklingen af API'er til sundhedstale. Vi er blevet imponeret over deres arbejde i sundhedsspecifik NLP og hvad de er i stand til at opnå med komplekse datasæt.

Google, Inc. Teknikchef

Fortæl os, hvordan vi kan hjælpe med dit næste AI-initiativ.

Casestudie: Ytringsindsamling

Leveret 7M+ ytringer til at bygge flersprogede digitale assistenter på 13 sprog

Virkelig verdens løsning

Problem

Løsning

Resultat

Vores ekspertise

Anbefalede ressourcer

Købervejledning

Købervejledning: Conversational AI

Blog

Staten med samtale AI 2021

Blog

3 Hindringer for udviklingen af konversations AI

AI-datatjenester

Specialiseret

Industri

Produkter

Om os

Ressourcer

Kontakt os

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Casestudie: Ytringsindsamling

Leveret 7M+ ytringer til at bygge flersprogede digitale assistenter på 13 sprog

Virkelig verdens løsning

Problem

Løsning

Resultat

Vores ekspertise

Anbefalede ressourcer

Købervejledning

Købervejledning: Conversational AI

Blog

Staten med samtale AI 2021

Blog

3 Hindringer for udviklingen af ​​konversations AI

AI-datatjenester

Specialiseret

Industri

Produkter

Om os

Ressourcer

Kontakt os

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

Fortæl os mere om dig!

3 Hindringer for udviklingen af konversations AI