Har du nogensinde undret dig over, hvordan chatbots og virtuelle assistenter vågner op, når du siger 'Hej Siri' eller 'Alexa'? Det er på grund af tekstindsamlingen eller udløser ord indlejret i softwaren, der aktiverer systemet, så snart det hører det programmerede vækkeord.
Den overordnede proces med at skabe lyde og ytringsdata er dog ikke så enkel. Det er en proces, der skal udføres med den rigtige teknik for at få de ønskede resultater. Derfor vil denne blog dele ruten til at skabe gode ytringer/triggerord, der fungerer problemfrit med din samtale-AI.
Hvad er en "ytring" i AI?
I konversationel AI (chatbots, stemmeassistenter) er en ytring et kort stykke brugerinput – de præcise ord, en person siger eller skriver. Modeller bruger ytringer til at finde ud af brugerens intention (mål) og eventuelle enheder (detaljer som datoer, produktnavne, beløb).
Enkle eksempler
E-handelsbot
Udtalelse: "Spor min ordre 123-456".
- Intention: Spor ordre
- Enhed: ordre_id = 123-456
Telekommunikationsbot
Udtalelse: "Opgrader mit dataabonnement".
- Intention: Ændringsplan
- Enhed: plantype = data
Bankassistent med stemme
Ytring (talt): “WHvad er min checksaldo i dag?"
- Intention: CheckBalance
- Enheder: kontotype = checkkonto, dato = i dag
Hvorfor din samtale-AI har brug for gode ytringsdata
Hvis du vil have, at din chatbot eller stemmeassistent skal føles hjælpsom – ikke skrøbelig – så start med bedre ytringsdata. Ytringer er de rå sætninger, folk siger eller skriver for at få tingene gjort ("book mig et lokale til i morgen", "ændr min plan", "hvad er status?"). De styrker intentionsklassificering, entitetsudtrækning og i sidste ende kundeoplevelsen. Når ytringer er forskellige, repræsentative og velmærkede, lærer dine modeller de rigtige grænser mellem intentioner og håndterer rodet, virkelighedsnær input med ro.
Opbygning af dit ytringsarkiv: en simpel arbejdsgang

1. Start med det rigtige brugersprog
Mine chatlogfiler, søgeforespørgsler, IVR-transskriptioner, agentnotaterog kunde-e-mails. Gruppér dem efter brugermål for at finde frem til intentioner. (Du vil indfange dagligdags sprog og mentale modeller, du ikke ville tænke på i et rum.)
2. Skab variation med vilje
For hver hensigt, forfatte forskellige eksempler:
- Omformuler verber og substantiver ("annuller", "stop", "slut"; "planlæg", "abonnement").
- Bland sætningslængder og -strukturer (spørgsmål, direktiv, fragment).
- Inkluder stavefejl, forkortelser, emojis (til chat) og kodebytte, hvor det er relevant.
- Tilføj negative tilfælde, der ligner hinanden, men som bør ikke kort til denne hensigt.
3. Balancer dine timer
Ekstremt skæv træning (f.eks. 500 eksempler for én hensigt og 10 for andre) skader forudsigelseskvaliteten. intentionstørrelser relativt lige og dyrk dem sammen, som trafikken lærer dig.
4. Valider kvaliteten før træning
Bloker data med lavt signal med validatorer under udarbejdelse/indsamling:
- Sprogdetektion: Sørg for, at eksemplerne er i målsproget.
- Gibberish-detektor: fange meningsløse strenge.
- Duplikerede/næsten-dublikerede kontroller: hold variationen høj.
- Regex/stavning og grammatik: håndhæve stilregler, hvor det er nødvendigt.
Smarte validatorer (som brugt af Appen) kan automatisere store dele af denne gatekeeping.
5. Mærk enheder konsekvent
Definer slottyper (datoer, produkter, adresser) og vis annotatorer hvordan man markerer grænser. Mønstre som Mønster hvilket som helst I LUIS kan man tydeliggøre lange, variable spænd (f.eks. dokumentnavne), der forvirrer modeller.
6. Test som om det var produktion
Skub ud uset virkelige ytringer til et forudsigelsesslutpunkt eller en staging-bot, gennemgå fejlklassificeringer og fremme tvetydige eksempler i træning. Lav dette til en løkke: indsaml → træn → gennemgå → udvid.
Hvad "rodet virkelighed" egentlig betyder (og hvordan man håndterer det)
Rigtige brugere bruger sjældent perfekte sætninger. Forvent:
- Fragmenter: "refusion af forsendelsesgebyr"
- Sammensatte mål: "Annuller ordre og genbestil i blåt"
- Implicitte enheder: "send til mit kontor" (du skal vide hvilket kontor)
- Tvetydighed: "ændre min plan" (hvilken plan? Gælder hvornår?)
Praktiske løsninger
- Giv afklarende prompts kun når det er nødvendigt; undgå at spørge for meget.
- Fange kontekstoverførsel (pronominer som "den rækkefølge", "den sidste").
- Brug reservehensigter med målrettet genopretning: "Jeg kan hjælpe med at aflyse eller ændre planer – hvad vil du gerne have?"
- Overvåg intention om sundhed (forvirring, kollision) og tilføj data, hvor det er svagt
Stemmeassistenter og vækkeord: forskellige data, lignende regler

Hvornår (og hvordan) man skal bruge standarddata vs. brugerdefinerede data

- Hyldevare: kickstart dækningen på nye steder, og mål derefter, hvor der stadig er forvirring.
- Tilpasset: indfang dit domænesprog (politiktermer, produktnavne) og "brand voice".
- BlendedStart bredt, og tilføj derefter højpræcisionsdata for de intentioner med den største afbøjning eller omsætningspåvirkning.
Hvis du har brug for en hurtig tilkørsel, tilbyder Shaip samling af ytringer og standard tale-/chatdatasæt på tværs af mange sprog; se casestudiet for en udrulning af flersproget assistent.
Implementeringstjekliste

- Definer intentioner og enheder med eksempler og negativ tilfælde
- Forfatter varieret, afbalanceret ytringer for hver intention (start småt, øg ugentligt)
- Tilføj validatorer (sprog, volapyk, dubletter, regex) før træning
- Opsætning anmeldelsesløkker fra reel trafik; promover tvetydige elementer til træning
- Spor intention om sundhed og kollisioner; rettelse med nye ytringer
- Reevaluer efter kanal/lokalitet for at opdage afvigelser tidligt
Hvordan Shaip kan hjælpe
- Indsamling og mærkning af brugerdefinerede ytringer (chat + stemme) med validatorer for at holde kvaliteten høj.
- Klar til brug datasæt på tværs af 150+ sprog/varianter for hurtig opstart.
- Løbende evalueringsprogrammer der omdanner livetrafik til træningsdata med højt signal – sikkert (PII-kontroller).
Udforsk vores flersprogede Casestudie om indsamling af ytringer.
