I dag har vi nogle talende robotter som chatbots, virtuelle assistenter og mere i vores hjem, bilsystemer, bærbare enheder, hjemmeautomatiseringsløsninger osv. Disse enheder lytter præcist til, hvad vi siger, og hvordan vi siger og henter resultater eller udfører specifikke opgaver .
Og hvis du har brugt en assistent som Siri eller Alexa, ville du også indse, at de bliver sjovere for hver dag. Deres svar er vittige, de taler tilbage, de snubler, giver komplimenter tilbage og opfører sig mere menneskelig end nogle af de kolleger, du måske kender. Vi laver ikke sjov. Ifølge PwC, 27 % af de brugere, der interagerede med deres seneste kundeservicemedarbejder, vidste ikke, om de talte med et menneske eller en chatbot.
Det er yderst komplekst og skræmmende at udvikle sådanne indviklede samtalesystemer og -enheder. Det er et helt anderledes boldspil med forskellige udviklingstilgange. Derfor tænkte vi, at vi skulle opdele det for dig, så det bliver lettere at forstå. Så hvis du søger at udvikle en konversations-AI-motor eller en virtuel assistent, vil denne guide hjælpe dig med at få klarhed.
Betydningen af Conversational AI
Efterhånden som teknologi bliver et mere integreret aspekt af vores liv i form af nyere enheder og systemer, opstår der et behov for at skubbe barrierer, bryde konventioner og finde på nye måder at interagere med dem på. Fra blot at bruge tilsluttede perifere enheder som mus og tastatur, skiftede vi til musemåtter, der tilbød mere bekvemmelighed. Vi migrerede derefter til berøringsskærme, der tilbød yderligere bekvemmelighed i forbindelse med input og udførelse af opgaver.
Med enheder, der bliver forlængelser af os selv, låser vi nu op for et nyt medie til at styre gennem stemme. Vi behøver ikke engang at være i nærheden af en enhed for at betjene den. Alt vi skal gøre er at bruge vores stemme til at låse den op og styre vores input. Fra et nærliggende rum, når du kører, mens du bruger en anden enhed samtidigt, udfører konversations-AI vores tilsigtede opgaver problemfrit. Så hvor skal vi begynde – det hele starter med højkvalitets taledata til at træne ML-modeller.
Det grundlæggende ved indsamling af taletræningsdata
Indsamling og annotering af AI-træningsdata til samtale-AI er meget anderledes. Der er tonsvis af forviklinger involveret i menneskelige kommandoer, og forskellige foranstaltninger skal implementeres for at sikre, at alle aspekter er tilpasset til virkningsfulde resultater. Lad os se på, hvad nogle af de grundlæggende elementer i taledata er.
Naturlig sprogforståelse (NLU)
For chatbots og virtuelle assistenter til at forstå og reagere på det, vi tekster eller kommandoer, kaldes en proces NLU er implementeret. Det står for Naturlig sprogforståelse og involverer tre teknologiske koncepter til at fortolke og behandle forskellige inputtyper.
Intent
Det hele starter med hensigt. Hvad forsøger en bestemt bruger at formidle, kommunikere eller opnå gennem en kommando? Søger brugeren information? Venter de på opdateringer til en handling? Befaler de en instruktion, som systemet skal udføre? Hvordan befaler de det? Er det gennem et spørgsmål eller en anmodning? Alle disse aspekter hjælper maskiner med at forstå og klassificere hensigter og formål med at komme med lufttætte svar.
Ytringssamling
Der er forskel på kommandoen "Hvor er den nærmeste hæveautomat?" og kommandoen "Find mig en hæveautomat i nærheden." Nu ville mennesker erkende, at begge betyder det samme, men maskiner skal forklares med denne forskel. De er de samme med hensyn til hensigten, men hvordan hensigten er blevet formet er helt anderledes.
Ytringsindsamling handler om at definere og kortlægge forskellige ytringer og vendinger mod specifikke mål for den præcise udførelse af opgaver og svar. Teknisk set arbejder dataannoteringsspecialister på taledata eller tekstdata for at hjælpe maskiner med at differentiere dette.
Enhedsudvinding
Hver sætning har specifikke ord eller sætninger, der vægter vægt, og det er denne vægt, der fører til en fortolkning af kontekst og formål. Maskiner, ligesom de stive systemer, de er, skal ske med sådanne enheder. For eksempel, "Hvor kan jeg finde strenge fra min guitar nær 6th Avenue?"
Hvis du forfiner sætningen, er find entitet et, strenge er to, guitaren er tre, og 6th avenue er 4. Disse entiteter er slået sammen af maskiner for at hente passende resultater, og for at dette kan ske, arbejder eksperter i backend.
Stemme-/tale-/lyddatasæt fra hylden til at træne din konversations-AI-model hurtigere
Design af dialoger til Conversational AI
Målet med AI har overvejende været at replikere menneskelig adfærd gennem bevægelser, handlinger og svar. Det bevidste menneskelige sind har den medfødte evne til at forstå kontekst, hensigt, tone, følelser og andre faktorer og reagere i overensstemmelse hermed. Men hvordan kan maskiner differentiere disse aspekter?
Design af dialoger til samtale AI er meget kompleks og endnu vigtigere, ret umulig at udrulle en universel model. Hvert individ har en anden måde at tænke, tale og reagere på. Selv i svarene formulerer vi alle vores tanker unikt. Så maskiner skal lytte og reagere i overensstemmelse hermed.
Dette er dog ikke ligeså glat. Når mennesker taler, kommer faktorer som accenter, udtale, etnicitet, sprog og mere ind, og det er ikke let for maskiner at misforstå og fejlfortolke ord og svare tilbage. Et bestemt ord kan forstås af maskiner på et utal af måder, når det dikteres af en inder, en brite, en amerikaner og en mexicaner. Der er tonsvis af sprogbarrierer, der spiller ind, og den mest praktiske måde at komme med et responssystem på er gennem visuel programmering, der er flowchart-baseret.
Gennem dedikerede blokke til bevægelser, svar og triggere, forfattere og eksperter kan hjælpe maskiner med at udvikle en karakter. Dette er mere som en algoritmemaskine kan bruge til at komme med de rigtige svar. Når et input fødes, flyder informationen gennem tilsvarende faktorer, hvilket fører til den rigtige respons for maskiner at levere.
Tast D for mangfoldighed
Som vi nævnte, er menneskelige interaktioner meget unikke. Mennesker rundt om i verden kommer fra forskellige samfundslag, baggrunde, nationaliteter, demografi, etnicitet, accenter, diktion, udtale og mere.
For at en samtalebot eller et system kan fungere universelt, skal det trænes med så forskellige træningsdata som muligt. Hvis for eksempel en model kun er blevet trænet med taledata fra et bestemt sprog eller etnicitet, ville en ny accent forvirre systemet og tvinge det til at levere forkerte resultater. Dette er ikke kun pinligt for virksomhedsejere, men også fornærmende for brugerne.
Derfor bør udviklingsfasen involvere AI-træningsdata fra en rig pulje af forskellige datasæt sammensat af mennesker fra alle mulige baggrunde. Jo flere accenter og etniciteter dit system forstår, jo mere universelt ville det være. Desuden er det, der ville irritere brugerne mere, ikke ukorrekt hentning af information, men manglende forståelse af deres input i første omgang.
Eliminering af bias bør være en nøgleprioritet, og en måde, virksomheder kan gøre dette på, er ved at vælge crowdsourcede data. Når du crowdsourcer dine taledata eller tekstdata, giver du folk fra hele verden mulighed for at bidrage til dine krav, hvilket gør din datapulje kun sund (Læs vores blog at forstå fordelene og faldgruberne ved at outsource data til crowdsource-arbejdere). Nu vil din model forstå forskellige accenter og udtale og reagere i overensstemmelse hermed.
Vejen frem
At udvikle samtale-AI er lige så svært som at opdrage et spædbarn. Den eneste forskel er, at spædbarnet til sidst ville vokse til at forstå ting og blive bedre til at kommunikere selvstændigt. Det er maskinerne, der konstant skal skubbes. Der er adskillige udfordringer på dette område i øjeblikket, og vi bør erkende, at vi har nogle af de mest revolutionerende samtale-AI-systemer, der udspringer på trods af disse udfordringer. Lad os vente og se, hvad fremtiden bringer for vores venlige chatbots og virtuelle assistenter. I mellemtiden, hvis du har til hensigt at få udviklet samtale-AI som Google Home til din virksomhed, kontakt os for dine AI-træningsdata og annoteringsbehov.