Indsamling af stemmedata i bilen
Casestudie: Indsamling af nøglesætninger til stemmeaktiverede systemer i bilen
Der er en stigende efterspørgsel efter stemmeaktiverede systemer i bilen i bilindustrien, hvilket omdefinerer, hvordan vi interagerer med vores mobilitetskøretøjer.
Bilindustrien har hurtigt taget stemmeaktiverede systemer til sig, hvor store aktører som Ford, Tesla og BMW integrerer avanceret stemmegenkendelse i deres køretøjer. I 2022 blev det anslået, at over 50 % af nye biler havde stemmegenkendelse. Disse integrationer har til formål at øge sikkerheden, så chaufførerne kan betjene navigations-, underholdnings- og kommunikationsfunktioner uden distraktioner.
Markedsværdien for stemmegenkendelse i biler forventedes at overstige 1 milliard USD i 2023, hvilket indikerer en stigende efterspørgsel efter håndfri, intelligent interaktion i bilen.
Automotive
Forskning tyder på, at i 2022 vil 73 % af bilisterne bruge en stemmeassistent i bilen.
Automotive Voice Recognition System Market blev vurderet til USD 2.01 mia. i 2021 og forventes at nå op på USD 3.51 mia. i 2027, hvilket registrerer en CAGR på omkring 8.07 %.
Virkelig verdens løsning
Data, der driver stemmeaktiverede systemer
Stemmeaktiverede systemer i biler øger sikkerheden og bekvemmeligheden. De giver chauffører adgang til navigation, foretage opkald, sende sms'er og styre musik uden at tage hænderne fra rattet eller øjnene fra vejen. Ved at reagere på verbale kommandoer reducerer disse systemer distraktion, fremmer multitasking og sikrer kontinuerlig fokus på kørsel.
Klienten er en global leder inden for samtale-intelligens, som tilbyder stemme-AI-løsninger, der lader virksomheder tilbyde utrolige samtaleoplevelser til deres kunder. De arbejdede med førende bilvirksomheder for at træne deres stemmeaktiverede systemer med mærkevare-nøglesætninger og havde brug for Shaips ekspertise inden for indsamling af lyddata.
Udfordringer
- Crowd sourcing: Rekrutter 2800+ modersmål pr. sprog globalt.
- Dataindsamling: Sikre 200+ prompter på 12 sprog inden for en fastsat tidsramme.
- Kontekst- og hensigtsgenkendelse: For at forstå brugeranmodninger korrekt, skulle systemer trænes i forskellige variationer for den samme nøglesætning.
- Håndtering af baggrundsstøj: Håndter baggrundsstøj fra den virkelige verden for ML-modellens nøjagtighed.
- Reducer bias: Få stemmeprøver fra forskellige demografiske grupper for at sikre inklusivitet.
- Lydspecifikationer: 16khz 16bit PCM, mono, enkeltkanal, WAV; ingen behandling.
- Optagelsesmiljø: Optagelser skal have ren lyd uden baggrundsstøj eller forstyrrelser. Nøglesætninger, der skal optages med normal tale.
- Kvalitetstjek: Alle taleoptagelser vil gennemgå kvalitetsvurdering og validering, kun validerede taleoptagelser vil blive leveret. Hvis Shaip ikke opfylder de aftalte kvalitetsstandarder, vil Shaip viderelevere data uden ekstra omkostninger
Løsning
Shaip med sin ekspertise inden for Conversational AI-området gjorde kunden i stand til:
- Dataindsamling: 208 nøglesætninger/mærkeanmodninger indsamlet på 12 globale sprog fra 2800 talere inden for den fastsatte tidsramme
- Forskellige accenter og dialekter: Rekruterede specialister fra hele verden, dygtige til de ønskede accenter og dialekter.
- Kontekst- og hensigtsgenkendelse: Hver højttaler fik til opgave at optage nøglesætningerne i 20 forskellige variationer, hvilket gjorde det muligt for ML-modellerne at forstå brugernes anmodninger præcist med hensyn til kontekst og hensigt.
- Håndtering af baggrundsstøj: For at sikre uberørt lydkvalitet sørgede vi for, at nøglesætningerne blev fanget i et fredfyldt miljø med støjniveauer under 40dB, fri for baggrundsforstyrrelser som tv, radio, musik, tale eller gadelyde.
- Reducer bias: For at minimere skævhed engagerede vi individer fra forskellige regioner og opretholdt en afbalanceret demografisk repræsentation med 50 % mænd og 50 % kvinder, der spænder over aldersgrupper fra 18 til 60 år.
- Retningslinjer for optagelse: Nøglesætningerne blev fanget i et konsistent, normalt talemønster uden nogen variationer såsom hurtig eller langsom pacing. 2 sekunders stilhed i både begyndelsen og slutningen for at garantere, at ingen del af talen blev klippet utilsigtet.
- Optagelsesformat: Lyden blev optaget ved 16kHz, 16-bit PCM i mono, ved brug af en enkelt kanal og gemt i WAV-filformatet. Lyden forbliver ubehandlet, hvilket betyder, at der ikke var nogen anvendelse af kompression, rumklang eller EQ.
- Kvalitet: Hver taleoptagelse blev udsat for streng kvalitetskontrol og validering. Kun optagelser, der bestod denne vurdering, blev leveret. Alle filer, der ikke levede op til de aftalte kvalitetsstandarder, blev genoptaget og leveret uden ekstra omkostninger
Resultat
Den højkvalitets mærke-nøglesætning lyddata eller stemmemeddelelser vil gøre det muligt for bilvirksomheder og deres kunder med:
- Branding og identitet: Stemmemeddelelser med specifikke brandsætninger hjælper virksomheder med at skabe en direkte og mindeværdig forbindelse mellem brugeren og brandet, der forbedrer brand-genkaldelsen.
- Brugervenlighed: Stemmekommandoer gør det lettere for chauffører at interagere med køretøjer uden at tage hænderne fra rattet eller øjnene fra vejen, hvilket øger trafiksikkerheden.
- Funktionalitet: Stemmekommandoer gør adgang til og styring af bilens funktioner mere intuitiv. Uanset om det er navigation, medieafspilning eller klimastyring.
- Integration med andre systemer: Mange stemmeaktiverede systemer er integreret med smartphones, smart home-enheder og andre IoT-enheder. For eksempel kan en bruger være i stand til at bede deres bil om at tænde lyset derhjemme, når de nærmer sig hjem.
- Konkurrencefordel: At tilbyde avancerede stemmeaktiverede systemer kan være et salgsargument og en differentiator. Købere leder efter den nyeste teknologi, når de overvejer at købe en ny bil.
- Fremtidssikring: Efterhånden som teknologien udvikler sig, og IoT bliver mere integreret i hverdagen, positionerer et robust stemmeaktiveret system bilvirksomheder til at være mere tilpasningsdygtige til fremtidens teknologi.
- Indtægtsmuligheder: Yderligere muligheder for indtægtsgenerering, dvs. stemmesystemer tilbyder anbefalinger eller integrerede e-handelsoplevelser (som at bestille mad eller finde tjenester i nærheden), der kunne give affilierede indtægter.
Da vi begyndte at indkøbe stemmemeddelelser til bilsektoren, var udfordringerne mange. At fange mangfoldigheden i tale, accenter og toner var afgørende for at repræsentere vores klients globale kundekreds. Shaip skilte sig ikke kun ud som en leverandør, men som en sand partner. Deres engagement i at sikre en bred vifte af stemmer fra forskellige regioner var prisværdigt. De gik ud over blot at samle stemmer; de forstod nuancerne i vores projektbehov, hvilket garanterer førsteklasses optagelser. Deres fejlfri overholdelse af lydindsamlingsstandarder viste deres professionalisme og dedikation til projektet.