Træningsdata for talegenkendelse

Talegenkendelsestræningsdata – typer, dataindsamling og applikationer

Hvis du bruger Siri, Alexa, Cortana, Amazon Echo eller andre som en del af dit daglige liv, vil du acceptere, at Tale genkendelse er blevet en allestedsnærværende del af vores liv. Disse drevet af kunstig intelligens stemmeassistenter konverterer de verbale forespørgsler fra brugere til tekst, fortolker og forstår, hvad brugeren siger for at komme med et passende svar.

Der er behov for kvalitetsdataindsamling for at udvikle pålidelige talegenkendelsesmodeller. Men udvikler sig talegenkendelsessoftware er ikke en simpel opgave – netop fordi det er svært at transskribere menneskelig tale i al dens kompleksitet, såsom rytme, accent, tonehøjde og klarhed. Og når du tilføjer følelser til denne komplekse blanding, bliver det en udfordring.

Hvad er talegenkendelse?

Talegenkendelse er softwares evne til at genkende og behandle menneskelig tale ind i tekst. Selvom forskellen mellem stemmegenkendelse og talegenkendelse kan virke subjektiv for mange, er der nogle grundlæggende forskelle mellem de to.

Selvom både tale- og stemmegenkendelse er en del af stemmeassistentteknologien, udfører de to forskellige funktioner. Talegenkendelse laver automatiske transskriptioner af menneskelig tale og kommandoer til tekst, mens stemmegenkendelse kun beskæftiger sig med genkendelse af talerens stemme.

Typer af talegenkendelse

Inden vi hopper ind talegenkendelsestyper, lad os tage et kort kig på talegenkendelsesdata.

Talegenkendelsesdata er en samling af menneskelige talelydoptagelser og teksttransskription, der hjælper med at træne maskinlæringssystemer til stemmegenkendelse.

Lydoptagelserne og transskriptionerne indtastes i ML-systemet, så algoritmen kan trænes til at genkende talens nuancer og forstå dens betydning.

Selvom der er mange steder, hvor du kan få gratis færdigpakkede datasæt, er det bedst at få det tilpassede datasæt til dine projekter. Du kan vælge samlingens størrelse, lyd- og højttalerkrav og sprog ved at have et brugerdefineret datasæt.

Taledataspektrum

Taledata spektrum identificerer kvaliteten og tonehøjden af ​​tale, der spænder fra naturlig til unaturlig.

  • Scriptet talegenkendelsesdata

    Som navnet antyder, er Scriptet tale en kontrolleret form for data. Talerne optager specifikke sætninger fra en forberedt tekst. Disse bruges typisk til at levere kommandoer, der understreger, hvordan ord eller sætning siges frem for hvad der bliver sagt.

    Scriptet talegenkendelse kan bruges, når man udvikler en stemmeassistent, der skal opfange kommandoer udstedt ved hjælp af forskellige højttaleraccenter.

  • Scenario-baseret talegenkendelse

    I en scenariebaseret tale bliver taleren bedt om at forestille sig et bestemt scenarie og udgive en stemmestyring baseret på scenariet. På denne måde er resultatet en samling stemmekommandoer, der ikke er scriptet, men kontrolleret.

    Scenariebaserede taledata er påkrævet af udviklere, der ønsker at udvikle en enhed, der forstår daglig tale med dens forskellige nuancer. For eksempel at bede om vej til den nærmeste Pizza Hut ved hjælp af en række spørgsmål.

  • Naturlig talegenkendelse

    Lige i slutningen af ​​talespektret er tale, der er spontan, naturlig og ikke kontrolleret på nogen måde. Taleren taler frit ved at bruge sin naturlige tone, sprog, tonehøjde og tenor.

    Hvis du ønsker at træne en ML-baseret applikation i talegenkendelse med flere højttalere, så skal en unscripted eller samtaletale datasæt er nyttigt.

Dataindsamlingskomponenter til taleprojekter

Indsamling af taledata En række trin involveret i indsamling af taledata sikrer, at de indsamlede data er af kvalitet og hjælper med at træne højkvalitets AI-baserede modeller.

Forstå nødvendige brugersvar

Start med at forstå de nødvendige brugersvar for modellen. For at udvikle en talegenkendelsesmodel bør du indsamle data, der nøje repræsenterer det indhold, du har brug for. Indsaml data fra interaktioner i den virkelige verden for at forstå brugerinteraktioner og -svar. Hvis du bygger en AI-baseret chatassistent, skal du se på chatlogs, opkaldsoptagelser, chat-dialogbokssvar for at oprette et datasæt.

Undersøg det domænespecifikke sprog

Du kræver både generisk og domænespecifikt indhold til et talegenkendelsesdatasæt. Når du har indsamlet generiske taledata, bør du gennemse dataene og adskille de generiske fra specifikke.

Kunder kan for eksempel ringe ind for at få en tid til at tjekke for grøn stær på et øjenplejecenter. At bede om en aftale er en meget generisk betegnelse, men grøn stær er domænespecifik.

Når du træner en talegenkendelse ML-model, skal du desuden sørge for at træne den til at identificere sætninger i stedet for individuelt anerkendte ord.

Optag menneskelig tale

Efter at have indsamlet data fra de to foregående trin, ville det næste trin involvere at få mennesker til at registrere de indsamlede udsagn.

Det er vigtigt at opretholde en ideel længde af scriptet. At bede folk om at læse mere end 15 minutters tekst kan være kontraproduktivt. Hold et mellemrum på mindst 2 – 3 sekunder mellem hver optaget erklæring.

Tillad optagelsen at være dynamisk

Byg et talelager af forskellige mennesker, taleaccenter, stilarter optaget under forskellige omstændigheder, enheder og miljøer. Hvis størstedelen af ​​fremtidige brugere skal bruge fastnet, bør din taleopsamlingsdatabase have en betydelig repræsentation, der matcher dette krav.

Fremkald variabilitet i taleoptagelse

Når målmiljøet er blevet sat op, skal du bede dine dataindsamlingspersoner om at læse det forberedte script under et lignende miljø. Bed emnerne om ikke at bekymre sig om fejlene og hold gengivelsen så naturlig som muligt. Ideen er at få en stor gruppe mennesker til at indspille manuskriptet i samme miljø.

Afskriv talerne

Når du har optaget scriptet med flere emner (med fejl), skal du fortsætte med transskriptionen. Hold fejlene intakte, da dette vil hjælpe dig med at opnå dynamik og variation i de indsamlede data.

I stedet for at få mennesker til at transskribere hele teksten ord for ord, kan du involvere en tale-til-tekst-motor til at udføre transskriptionen. Vi foreslår dog også, at du bruger menneskelige transkriberere til at rette fejl.

Udvikl et testsæt

Udvikling af et testsæt er afgørende, da det er en frontløber til sprogmodel.

Lav et par af talen og den tilhørende tekst og lav dem til segmenter.

Efter at have indsamlet de indsamlede elementer, udtræk en prøve på 20 %, som udgør testsættet. Det er ikke træningssættet, men disse udtrukne data vil fortælle dig, hvis den trænede model transskriberer lyd, som den ikke er blevet trænet på.

Byg sprogtræningsmodel og mål

Byg nu talegenkendelsessprogmodellen ved hjælp af de domænespecifikke udsagn og yderligere variationer, hvis det er nødvendigt. Når du har trænet modellen, bør du begynde at måle den.

Tag træningsmodellen (med 80 % udvalgte lydsegmenter) og test den mod testsættet (udtrukket 20 % datasæt) for at kontrollere forudsigelser og pålidelighed. Tjek for fejl, mønstre, og fokuser på miljøfaktorer, der kan rettes.

Mulige anvendelsestilfælde eller applikationer

Brugssag til talegenkendelse

Stemmeapplikation, smarte apparater, tale til tekst, kundesupport, indholdsdiktering, sikkerhedsapplikation, autonome køretøjer, noteskrivning til sundhedsvæsenet.

Talegenkendelse åbner en verden af ​​muligheder, og brugerindtagelsen af ​​stemmeapplikationer er steget gennem årene.

Nogle af de almindelige anvendelser af talegenkendelsesteknologi omfatte:

  1. Stemmesøgningsapplikation

    Ifølge Google omkring 20% af søgninger udført på Google-appen er tale. Otte milliarder mennesker forventes at bruge stemmeassistenter i 2023, en kraftig stigning fra de forudsagte 6.4 milliarder i 2022.

    Stemmesøgningsadoption er steget markant gennem årene, og denne tendens forventes at fortsætte. Forbrugere er afhængige af stemmesøgning til at søge forespørgsler, købe produkter, finde virksomheder, finde lokale virksomheder og meget mere.

  2. Hjemmeudstyr/smartapparater

    Stemmegenkendelsesteknologi bliver brugt til at levere stemmekommandoer til smartenheder i hjemmet, såsom tv'er, lys og andre apparater. 66% af forbrugerne i Storbritannien, USA og Tyskland oplyste, at de brugte stemmeassistenter, når de brugte smartenheder og højttalere.

  3. Tale til tekst

    Tale-til-tekst-applikationer bliver brugt til at hjælpe med gratis databehandling, når du skriver e-mails, dokumenter, rapporter og andre. Tale til tekst eliminerer tiden til at skrive dokumenter, skrive bøger og mails, undertekster videoer og oversætte tekst.

  4. Kunde support

    Talegenkendelsesapplikationer bruges overvejende i kundeservice og support. Et talegenkendelsessystem hjælper med at levere kundeserviceløsninger 24/7 til en overkommelig pris med et begrænset antal repræsentanter.

  5. Indholdsdiktering

    Indholdsdiktering er en anden brugssag til talegenkendelse der hjælper studerende og akademikere med at skrive omfattende indhold på en brøkdel af tiden. Det er ret nyttigt for studerende, der er dårligt stillet på grund af blindhed eller synsproblemer.

  6. Sikkerhedsapplikation

    Stemmegenkendelse bruges i vid udstrækning til sikkerheds- og autentificeringsformål ved at identificere unikke stemmeegenskaber. I stedet for at få personen til at identificere sig selv ved at bruge personlige oplysninger stjålet eller misbrugt, øger stemmebiometri sikkerheden.

    Desuden har stemmegenkendelse til sikkerhedsformål forbedret kundetilfredshedsniveauet, da det fjerner den udvidede login-proces og legitimationsduplikering.

  7. Stemmekommandoer til køretøjer

    Køretøjer, primært biler, har nu en fælles stemmegenkendelsesfunktion for at forbedre køresikkerheden. Det hjælper chaufførerne med at fokusere på kørslen ved at acceptere enkle stemmekommandoer som at vælge radiostationer, foretage opkald eller reducere lydstyrken.

  8. Noter til sundhedsvæsenet

    Medicinsk transskriptionssoftware bygget ved hjælp af talegenkendelsesalgoritmer fanger nemt lægers stemmenoter, kommandoer, diagnoser og symptomer. Medicinsk notetagning øger kvaliteten og haster i sundhedssektoren.

Har du et talegenkendelsesprojekt i tankerne, som kan transformere din virksomhed? Alt hvad du behøver er et tilpasset talegenkendelsesdatasæt.

En AI-baseret talegenkendelsessoftware skal trænes i pålidelige datasæt om maskinlæringsalgoritmer for at integrere syntaks, grammatik, sætningsstruktur, følelser og nuancer af menneskelig tale. Det vigtigste er, at softwaren hele tiden skal lære og reagere - vokse med hver interaktion.

Hos Shaip leverer vi helt tilpassede talegenkendelsesdatasæt til forskellige maskinlæringsprojekter. Med Shaip har du adgang til skræddersyede træningsdata af højeste kvalitet der kan bruges til at bygge og markedsføre et pålideligt talegenkendelsessystem. Kom i kontakt med vores eksperter for at få en omfattende forståelse af vores tilbud.

[Læs også: Den komplette guide til Conversational AI]

Social Share