Indsamling af taledata

7 gennemprøvede metoder til at tilpasse taledataindsamling

Stemmegenkendelsesmarkedet i verden forventes at vokse til $ 84.97 mia 2032 fra $10.7 milliarder i 2023 ved en CAGR på 23.7%.

Tilpasning af taledataindsamling er afgørende for succesen af ​​dine AI- og maskinlæringsprojekter (ML). Uanset om du bygger samtale-AI-agenter, talegenkendelsesmodeller eller andre stemmebaserede applikationer, kan kvaliteten og mangfoldigheden af ​​dine taledata gøre eller ødelægge din models ydeevne.

I denne omfattende guide vil vi udforske 7 gennemprøvede metoder til at hjælpe dig med at tilpasse og optimere din taledataindsamlingsproces. Fra fastlæggelse af det rigtige sprog og demografiske krav til integration af avancerede dataforstærkningsteknikker, vil disse strategier sikre, at du indsamler de højkvalitets taledata, dine AI/ML-modeller har brug for for at trives.

Lad os se på alle de effektive måder eller punkter, der skal huskes, før du tilpasser indsamling af taledata projekt.

Punkter at huske på, mens du tilpasser indsamling af taledata

  • Sprog og demografi
  • Samlingsstørrelse
  • Scriptets struktur
  • Lydkrav og formater
  • Leverings- og behandlingskrav
  • Udnyt avancerede dataforøgelsesteknikker
  • Andre vigtige punkter at bemærke

Sprog og demografi

Projektet bør først specificere målsprogene og måldemografien.

  • Sprog og dialekt

    Start med at have projektkravet i tankerne – de sprog, som taledatasættet bliver indsamlet og tilpasset til. Forstå også det specifikke færdighedskrav. Skal deltageren f.eks. være modersmål eller ikke-modersmål?

    For eksempel – Engelsk som modersmål

    At løbe tæt i hælene på sproget er dialekt. For at sikre, at datasættet ikke lider af skævheder, er det tilrådeligt at introducere dialekter med vilje for at tage højde for diversitet hos deltagerne.

    For eksempel – Højttalere med australsk engelsk accent

  • Lande

    Inden der tilpasses, er det vigtigt at vide, om der er et specifikt krav om, at deltagerne skal komme fra bestemte lande. Og om deltagerne i øjeblikket skal bo i et specifikt land.

    For eksempel – Punjabi tales forskelligt i Indien og Pakistan.

  • Demografi

    Udover sprog og geografi kan tilpasningen også ske baseret på demografi. Målfordeling af deltagere baseret på deres alder, køn, uddannelsesmæssige kvalifikationer og mere kan også gøres.

    For eksempel – Voksne vs børn eller uddannede vs uuddannede

Samlingsstørrelse

Dit datasæt vil påvirke dit dataprojekts ydeevne. Dog vil den indsamlingsdatastørrelse, du har brug for, også afgøre, hvilke deltagere der kræves.

  • Det samlede antal respondenter

    Bestem det samlede antal deltagere, der kræves til projektet. I tilfælde af at projektet kræver sprog indsamling af lyddata, bør du analysere det samlede antal deltagere, der kræves pr. målsprog.

    For eksempel – 50 % amerikansk engelsk og 50 % australsk engelsktalende

  • Det samlede antal ytringer

    For at opbygge taledataindsamlingen skal du bestemme det samlede antal ytringer eller gentagelser pr. deltager eller det samlede antal gentagelser, der er nødvendige.

    For eksempel – 50 deltagere med 25 ytringer pr. deltager = 1250 gentagelser

Script struktur

Scriptet kan også tilpasses til at imødekomme projektets behov, så det er tilrådeligt at søge hjælp fra taleterapeuter at designe strømmen af ​​tekst. Hvis ML-modellen skal trænes på velstrukturerede data, skal den tage hensyn til scriptet og arbejdsgangen.

  • Scripted vs Unscripted

    Du kan vælge mellem at bruge en scriptet tekst eller en naturlig eller unscripted tekst, der skal læses af deltagerne.

    I en scriptet teksttale læser deltagerne, hvad der vises på skærmen. Denne metode bruges for det meste til at optage kommandoer eller instruktioner.

    For eksempel – 'Sluk musikken', 'Tryk på 1 for at optage'.

    I den uskriptede tale får deltagerne scenarier og bliver bedt om at indramme deres sætninger og tale så naturligt som muligt.

    For eksempel – 'Kan du venligst fortælle mig, hvor den næste tankstation er?'

  • Ytringssamling / Wakeup Words

    Hvis der bruges scriptet tekst, skal du bestemme antallet af scripts, der skal bruges, og om hver deltager skal læse et unikt script eller en gruppe scripts. Bestem også, om scriptet indeholder en samling af wake-ord og -kommandoer.

    For eksempel -

    Kommando 1:

    "Alexa, hvad er opskriften på en chokolade cupcake?"

    "Ok Google, hvad er opskriften på en chokoladecupcake?"

    "Siri, hvad er opskriften på en chokoladecupcake?"

    Kommando 2:

    "Alexa, hvornår er flyet til New York?"

    "Google, hvornår er flyet til New York?"

    "Siri, hvornår er flyet til New York?"

Lydkrav og formater

Lydkrav Lydkvalitet spiller en afgørende rolle i talegenkendelsen dataindsamling behandle. Distraherende baggrundsstøj kan have en negativ indvirkning på kvaliteten af ​​de indsamlede stemmenoter. Dette kan også mindske effektiviteten af ​​stemmegenkendelsesalgoritmen.

  • Lydkvalitet

    Kvaliteten af ​​optagelserne og tilstedeværelsen af ​​baggrundsstøj kan påvirke resultatet af projektet. Men nogle taledataindsamlinger accepterer tilstedeværelsen af ​​støj. Det er dog tilrådeligt at have en bedre forståelse af kravene med hensyn til bithastighed, signal-til-støj-forhold, amplitude og meget mere.

  • dannet

    Filformatet, datapunkter, indholdsstruktur, komprimering og efterbehandlingskrav bestemmer også kvaliteten af ​​taleoptagelser.

    Grunden til vigtigheden af ​​filformater er, at modellen skal identificere filoutputtet og trænes til at genkende netop den lydkvalitet.

  • Definer brugerdefineret lydkrav

    Tilpassede lydkrav bør nævnes før begyndelsen af ​​indsamlingsprocessen. Klienter kan vælge tilpassede lydfiler, hvor specifikke filer lægges sammen.

[Læs også: Forbedre AI-modeller med vores kvalitetsindiske lyddatasæt.]

Leverings- og behandlingskrav

Når taledataene er indsamlet, kan kunderne vælge at få dem leveret i henhold til deres krav.

  • Krav til transskription og annotering

    Nogle kunder kræver datatransskription og mærkning, før de leverer. Derudover kan de også kræve specifikke former for mærkning og segmentering.

    Nogle gange er det bedre at søge tale-sprog-patologer og eksperter til at hjælpe med at transskribere tale på forskellige sprog for at bevare målsprogets autenticitet.

  • Filnavnekonventioner

    formularer til dataindsamling skal angive enhver filnavnekonvention, der skal følges. Hvis navnekonventionen er kompleks eller uden for processens standardomfang, kan den tiltrække ekstra udviklingsomkostninger.

  • Retningslinjer for levering

    Sikkerheds- og leveringsretningslinjer skal følges som specificeret i projektkravene. Desuden skal det angives, om dataene skal leveres i små milepæle eller som en komplet pakke. Kunder foretrækker også rettidigt statusovervågning opdateringer, så de kan holde styr på projektets status.

Udnyt avancerede dataforøgelsesteknikker

  • Taledataforøgelse kan udvide mangfoldigheden og robustheden af ​​dit datasæt betydeligt.
  • Udforsk teknikker som lydskift, tidsudstrækning, støjinjektion og stemmekonvertering for syntetisk at generere nye taleeksempler af høj kvalitet.
  • Integrer disse dataforøgelsesmetoder i din arbejdsgang til indsamling af taledata for at skabe et mere omfattende og repræsentativt datasæt

Andre vigtige punkter at bemærke

Tilpasningerne vil påvirke, hvordan

  • Anvendte dataindsamlingsmetoder
  • Rekruttering af deltagere
  • Tidslinjen for levering
  • De foreløbige omkostninger ved projektet

Casestudie: Flersproget taledataindsamling

Shaip samarbejdede for nylig med en førende konversations-AI-virksomhed for at indsamle højkvalitets taledata på 12 sprog til deres virtuelle assistentplatform. Ved at udnytte vores ekspertise inden for sproglig mangfoldighed og bedste praksis for dataindsamling har vi med succes leveret et omfattende datasæt, der markant forbedrede kundens talegenkendelsesnøjagtighed og brugeroplevelse på tværs af flere markeder.

Fremtiden for taledataindsamling

Efterhånden som AI- og ML-teknologier fortsætter med at udvikle sig, vil efterspørgslen efter taledata af høj kvalitet kun fortsætte med at vokse. Nye tendenser, såsom flersproget talegenkendelse og talegenkendelse med flere accent, vil kræve endnu mere forskelligartede og repræsentative datasæt. Derudover vil brugen af ​​syntetiske data og avancerede dataforstærkningsteknikker spille en stadig vigtigere rolle i udvidelsen af ​​størrelsen og variationen af ​​taledatasæt.

Hos Shaip er vi forpligtet til at forblive på forkant med disse tendenser og give vores kunder den højeste kvalitet af taledataindsamlingstjenester til at drive deres AI/ML-innovationer.

Konklusion

Ved at følge disse 7 gennemprøvede metoder kan du designe og udføre et taledataindsamlingsprojekt, der sætter dine AI/ML-applikationer op til succes. Husk, at kvaliteten og mangfoldigheden af ​​dine taledata er altafgørende, så sørg for at investere den tid og de ressourcer, der er nødvendige for at skabe et datasæt, der virkelig opfylder dit projekts krav.

Hvis du har brug for yderligere hjælp til at tilpasse og optimere din indsamling af taledata, er eksperterne hos Shaip her for at hjælpe. Kontakt os i dag for at lære, hvordan vores end-to-end datatjenester kan løfte dine AI/ML-kapaciteter.

[Læs også: Talegenkendelsestræningsdata – typer, dataindsamling og applikationer]

Social Share