Hvis du bruger Siri, Alexa, Cortana, Amazon Echo eller andre som en del af dit daglige liv, vil du acceptere, at Tale genkendelse er blevet en allestedsnærværende del af vores liv. Disse drevet af kunstig intelligens stemmeassistenter konverterer de verbale forespørgsler fra brugere til tekst, fortolker og forstår, hvad brugeren siger for at komme med et passende svar.
Der er behov for kvalitetsdataindsamling for at udvikle pålidelige talegenkendelsesmodeller. Men udvikler sig talegenkendelsessoftware er ikke en simpel opgave – netop fordi det er svært at transskribere menneskelig tale i al dens kompleksitet, såsom rytme, accent, tonehøjde og klarhed. Og når du tilføjer følelser til denne komplekse blanding, bliver det en udfordring.
Hvad er talegenkendelse?
Talegenkendelse er softwares evne til at genkende og behandle menneskelig tale ind i tekst. Selvom forskellen mellem stemmegenkendelse og talegenkendelse kan virke subjektiv for mange, er der nogle grundlæggende forskelle mellem de to.
Selvom både tale- og stemmegenkendelse er en del af stemmeassistentteknologien, udfører de to forskellige funktioner. Talegenkendelse laver automatiske transskriptioner af menneskelig tale og kommandoer til tekst, mens stemmegenkendelse kun beskæftiger sig med genkendelse af talerens stemme.
Typer af talegenkendelse
Inden vi hopper ind talegenkendelsestyper, lad os tage et kort kig på talegenkendelsesdata.
Talegenkendelsesdata er en samling af menneskelige talelydoptagelser og teksttransskription, der hjælper med at træne maskinlæringssystemer til stemmegenkendelse.
Lydoptagelserne og transskriptionerne indtastes i ML-systemet, så algoritmen kan trænes til at genkende talens nuancer og forstå dens betydning.
Selvom der er mange steder, hvor du kan få gratis færdigpakkede datasæt, er det bedst at få det tilpassede datasæt til dine projekter. Du kan vælge samlingens størrelse, lyd- og højttalerkrav og sprog ved at have et brugerdefineret datasæt.
Taledataspektrum
Taledata spektrum identificerer kvaliteten og tonehøjden af tale, der spænder fra naturlig til unaturlig.
Scriptet talegenkendelsesdata
Som navnet antyder, er Scriptet tale en kontrolleret form for data. Talerne optager specifikke sætninger fra en forberedt tekst. Disse bruges typisk til at levere kommandoer, der understreger, hvordan ord eller sætning siges frem for hvad der bliver sagt.
Scriptet talegenkendelse kan bruges, når man udvikler en stemmeassistent, der skal opfange kommandoer udstedt ved hjælp af forskellige højttaleraccenter.
Scenario-baseret talegenkendelse
I en scenariebaseret tale bliver taleren bedt om at forestille sig et bestemt scenarie og udgive en stemmestyring baseret på scenariet. På denne måde er resultatet en samling stemmekommandoer, der ikke er scriptet, men kontrolleret.
Scenariebaserede taledata er påkrævet af udviklere, der ønsker at udvikle en enhed, der forstår daglig tale med dens forskellige nuancer. For eksempel at bede om vej til den nærmeste Pizza Hut ved hjælp af en række spørgsmål.
Naturlig talegenkendelse
Lige i slutningen af talespektret er tale, der er spontan, naturlig og ikke kontrolleret på nogen måde. Taleren taler frit ved at bruge sin naturlige tone, sprog, tonehøjde og tenor.
Hvis du ønsker at træne en ML-baseret applikation i talegenkendelse med flere højttalere, så skal en unscripted eller samtaletale datasæt er nyttigt.
Dataindsamlingskomponenter til taleprojekter
En række trin involveret i indsamling af taledata sikrer, at de indsamlede data er af kvalitet og hjælper med at træne højkvalitets AI-baserede modeller.
Forstå nødvendige brugersvar
Start med at forstå de nødvendige brugersvar for modellen. For at udvikle en talegenkendelsesmodel bør du indsamle data, der nøje repræsenterer det indhold, du har brug for. Indsaml data fra interaktioner i den virkelige verden for at forstå brugerinteraktioner og -svar. Hvis du bygger en AI-baseret chatassistent, skal du se på chatlogs, opkaldsoptagelser, chat-dialogbokssvar for at oprette et datasæt.
Undersøg det domænespecifikke sprog
Du kræver både generisk og domænespecifikt indhold til et talegenkendelsesdatasæt. Når du har indsamlet generiske taledata, bør du gennemse dataene og adskille de generiske fra specifikke.
Kunder kan for eksempel ringe ind for at få en tid til at tjekke for grøn stær på et øjenplejecenter. At bede om en aftale er en meget generisk betegnelse, men grøn stær er domænespecifik.
Når du træner en talegenkendelse ML-model, skal du desuden sørge for at træne den til at identificere sætninger i stedet for individuelt anerkendte ord.
Optag menneskelig tale
Efter at have indsamlet data fra de to foregående trin, ville det næste trin involvere at få mennesker til at registrere de indsamlede udsagn.
Det er vigtigt at opretholde en ideel længde af scriptet. At bede folk om at læse mere end 15 minutters tekst kan være kontraproduktivt. Hold et mellemrum på mindst 2 – 3 sekunder mellem hver optaget erklæring.
Tillad optagelsen at være dynamisk
Byg et talelager af forskellige mennesker, taleaccenter, stilarter optaget under forskellige omstændigheder, enheder og miljøer. Hvis størstedelen af fremtidige brugere skal bruge fastnet, bør din taleopsamlingsdatabase have en betydelig repræsentation, der matcher dette krav.
Fremkald variabilitet i taleoptagelse
Når målmiljøet er blevet sat op, skal du bede dine dataindsamlingspersoner om at læse det forberedte script under et lignende miljø. Bed emnerne om ikke at bekymre sig om fejlene og hold gengivelsen så naturlig som muligt. Ideen er at få en stor gruppe mennesker til at indspille manuskriptet i samme miljø.
Afskriv talerne
Når du har optaget scriptet med flere emner (med fejl), skal du fortsætte med transskriptionen. Hold fejlene intakte, da dette vil hjælpe dig med at opnå dynamik og variation i de indsamlede data.
I stedet for at få mennesker til at transskribere hele teksten ord for ord, kan du involvere en tale-til-tekst-motor til at udføre transskriptionen. Vi foreslår dog også, at du bruger menneskelige transkriberere til at rette fejl.
Udvikl et testsæt
Udvikling af et testsæt er afgørende, da det er en frontløber til sprogmodel.
Lav et par af talen og den tilhørende tekst og lav dem til segmenter.
Efter at have indsamlet de indsamlede elementer, udtræk en prøve på 20 %, som udgør testsættet. Det er ikke træningssættet, men disse udtrukne data vil fortælle dig, hvis den trænede model transskriberer lyd, som den ikke er blevet trænet på.
Byg sprogtræningsmodel og mål
Byg nu talegenkendelsessprogmodellen ved hjælp af de domænespecifikke udsagn og yderligere variationer, hvis det er nødvendigt. Når du har trænet modellen, bør du begynde at måle den.
Tag træningsmodellen (med 80 % udvalgte lydsegmenter) og test den mod testsættet (udtrukket 20 % datasæt) for at kontrollere forudsigelser og pålidelighed. Tjek for fejl, mønstre, og fokuser på miljøfaktorer, der kan rettes.
[Læs også: Forbedre AI-modeller med vores kvalitetsindiske lyddatasæt.]
Mulige anvendelsestilfælde eller applikationer
Stemmeapplikation, smarte apparater, tale til tekst, kundesupport, indholdsdiktering, sikkerhedsapplikation, autonome køretøjer, noteskrivning til sundhedsvæsenet.
Talegenkendelse åbner en verden af muligheder, og brugerindtagelsen af stemmeapplikationer er steget gennem årene.
Nogle af de almindelige anvendelser af talegenkendelsesteknologi omfatte:
Stemmesøgningsapplikation
Ifølge Google omkring 20% af søgninger udført på Google-appen er tale. Otte milliarder mennesker forventes at bruge stemmeassistenter i 2023, en kraftig stigning fra de forudsagte 6.4 milliarder i 2022.
Stemmesøgningsadoption er steget markant gennem årene, og denne tendens forventes at fortsætte. Forbrugere er afhængige af stemmesøgning til at søge forespørgsler, købe produkter, finde virksomheder, finde lokale virksomheder og meget mere.
Hjemmeudstyr/smartapparater
Stemmegenkendelsesteknologi bliver brugt til at levere stemmekommandoer til smartenheder i hjemmet, såsom tv'er, lys og andre apparater. 66% af forbrugerne i Storbritannien, USA og Tyskland oplyste, at de brugte stemmeassistenter, når de brugte smartenheder og højttalere.
Tale til tekst
Tale-til-tekst-applikationer bliver brugt til at hjælpe med gratis databehandling, når du skriver e-mails, dokumenter, rapporter og andre. Tale til tekst eliminerer tiden til at skrive dokumenter, skrive bøger og mails, undertekster videoer og oversætte tekst.
Kunde support
Talegenkendelsesapplikationer bruges overvejende i kundeservice og support. Et talegenkendelsessystem hjælper med at levere kundeserviceløsninger 24/7 til en overkommelig pris med et begrænset antal repræsentanter.
Indholdsdiktering
Indholdsdiktering er en anden brugssag til talegenkendelse der hjælper studerende og akademikere med at skrive omfattende indhold på en brøkdel af tiden. Det er ret nyttigt for studerende, der er dårligt stillet på grund af blindhed eller synsproblemer.
Sikkerhedsapplikation
Stemmegenkendelse bruges i vid udstrækning til sikkerheds- og autentificeringsformål ved at identificere unikke stemmeegenskaber. I stedet for at få personen til at identificere sig selv ved at bruge personlige oplysninger stjålet eller misbrugt, øger stemmebiometri sikkerheden.
Desuden har stemmegenkendelse til sikkerhedsformål forbedret kundetilfredshedsniveauet, da det fjerner den udvidede login-proces og legitimationsduplikering.
Stemmekommandoer til køretøjer
Køretøjer, primært biler, har nu en fælles stemmegenkendelsesfunktion for at forbedre køresikkerheden. Det hjælper chaufførerne med at fokusere på kørslen ved at acceptere enkle stemmekommandoer som at vælge radiostationer, foretage opkald eller reducere lydstyrken.
Noter til sundhedsvæsenet
Medicinsk transskriptionssoftware bygget ved hjælp af talegenkendelsesalgoritmer fanger nemt lægers stemmenoter, kommandoer, diagnoser og symptomer. Medicinsk notetagning øger kvaliteten og haster i sundhedssektoren.
Har du et talegenkendelsesprojekt i tankerne, som kan transformere din virksomhed? Alt hvad du behøver er et tilpasset talegenkendelsesdatasæt.
En AI-baseret talegenkendelsessoftware skal trænes i pålidelige datasæt om maskinlæringsalgoritmer for at integrere syntaks, grammatik, sætningsstruktur, følelser og nuancer af menneskelig tale. Det vigtigste er, at softwaren hele tiden skal lære og reagere - vokse med hver interaktion.
Hos Shaip leverer vi helt tilpassede talegenkendelsesdatasæt til forskellige maskinlæringsprojekter. Med Shaip har du adgang til skræddersyede træningsdata af højeste kvalitet der kan bruges til at bygge og markedsføre et pålideligt talegenkendelsessystem. Kom i kontakt med vores eksperter for at få en omfattende forståelse af vores tilbud.
[Læs også: Den komplette guide til Conversational AI]