Indsamling af ytringsdata

Hvad er en "ytring" i AI?: Eksempler, datasæt og bedste praksis

Har du nogensinde undret dig over, hvordan chatbots og virtuelle assistenter vågner op, når du siger 'Hej Siri' eller 'Alexa'? Det er på grund af tekstindsamlingen eller udløser ord indlejret i softwaren, der aktiverer systemet, så snart det hører det programmerede vækkeord.

Den overordnede proces med at skabe lyde og ytringsdata er dog ikke så enkel. Det er en proces, der skal udføres med den rigtige teknik for at få de ønskede resultater. Derfor vil denne blog dele ruten til at skabe gode ytringer/triggerord, der fungerer problemfrit med din samtale-AI.

Hvad er en "ytring" i AI?

I konversationel AI (chatbots, stemmeassistenter) er en ytring et kort stykke brugerinput – de præcise ord, en person siger eller skriver. Modeller bruger ytringer til at finde ud af brugerens intention (mål) og eventuelle enheder (detaljer som datoer, produktnavne, beløb).

Enkle eksempler

E-handelsbot

Udtalelse: "Spor min ordre 123-456".

  • Intention: Spor ordre
  • Enhed: ordre_id = 123-456

Telekommunikationsbot

Udtalelse: "Opgrader mit dataabonnement".

  • Intention: Ændringsplan
  • Enhed: plantype = data

Bankassistent med stemme

Ytring (talt): “WHvad er min checksaldo i dag?"

  • Intention: CheckBalance
  • Enheder: kontotype = checkkonto, dato = i dag

Hvorfor din samtale-AI har brug for gode ytringsdata

Hvis du vil have, at din chatbot eller stemmeassistent skal føles hjælpsom – ikke skrøbelig – så start med bedre ytringsdata. Ytringer er de rå sætninger, folk siger eller skriver for at få tingene gjort ("book mig et lokale til i morgen", "ændr min plan", "hvad er status?"). De styrker intentionsklassificering, entitetsudtrækning og i sidste ende kundeoplevelsen. Når ytringer er forskellige, repræsentative og velmærkede, lærer dine modeller de rigtige grænser mellem intentioner og håndterer rodet, virkelighedsnær input med ro.

Opbygning af dit ytringsarkiv: en simpel arbejdsgang

Opbygning af ytringsarkiv

1. Start med det rigtige brugersprog

Mine chatlogfiler, søgeforespørgsler, IVR-transskriptioner, agentnotaterog kunde-e-mails. Gruppér dem efter brugermål for at finde frem til intentioner. (Du vil indfange dagligdags sprog og mentale modeller, du ikke ville tænke på i et rum.)

2. Skab variation med vilje

For hver hensigt, forfatte forskellige eksempler:

  • Omformuler verber og substantiver ("annuller", "stop", "slut"; "planlæg", "abonnement").
  • Bland sætningslængder og -strukturer (spørgsmål, direktiv, fragment).
  • Inkluder stavefejl, forkortelser, emojis (til chat) og kodebytte, hvor det er relevant.
  • Tilføj negative tilfælde, der ligner hinanden, men som bør ikke kort til denne hensigt.

3. Balancer dine timer

Ekstremt skæv træning (f.eks. 500 eksempler for én hensigt og 10 for andre) skader forudsigelseskvaliteten. intentionstørrelser relativt lige og dyrk dem sammen, som trafikken lærer dig.

4. Valider kvaliteten før træning

Bloker data med lavt signal med validatorer under udarbejdelse/indsamling:

  • Sprogdetektion: Sørg for, at eksemplerne er i målsproget.
  • Gibberish-detektor: fange meningsløse strenge.
  • Duplikerede/næsten-dublikerede kontroller: hold variationen høj.
  • Regex/stavning og grammatik: håndhæve stilregler, hvor det er nødvendigt.
    Smarte validatorer (som brugt af Appen) kan automatisere store dele af denne gatekeeping.

5. Mærk enheder konsekvent

Definer slottyper (datoer, produkter, adresser) og vis annotatorer hvordan man markerer grænser. Mønstre som Mønster hvilket som helst I LUIS kan man tydeliggøre lange, variable spænd (f.eks. dokumentnavne), der forvirrer modeller.

6. Test som om det var produktion

Skub ud uset virkelige ytringer til et forudsigelsesslutpunkt eller en staging-bot, gennemgå fejlklassificeringer og fremme tvetydige eksempler i træning. Lav dette til en løkke: indsaml → træn → gennemgå → udvid.

Hvad "rodet virkelighed" egentlig betyder (og hvordan man håndterer det)

Rigtige brugere bruger sjældent perfekte sætninger. Forvent:

  • Fragmenter: "refusion af forsendelsesgebyr"
  • Sammensatte mål: "Annuller ordre og genbestil i blåt"
  • Implicitte enheder: "send til mit kontor" (du skal vide hvilket kontor)
  • Tvetydighed: "ændre min plan" (hvilken plan? Gælder hvornår?)

Praktiske løsninger

  • Giv afklarende prompts kun når det er nødvendigt; undgå at spørge for meget.
  • Fange kontekstoverførsel (pronominer som "den rækkefølge", "den sidste").
  • Brug reservehensigter med målrettet genopretning: "Jeg kan hjælpe med at aflyse eller ændre planer – hvad vil du gerne have?"
  • Overvåg intention om sundhed (forvirring, kollision) og tilføj data, hvor det er svagt

Stemmeassistenter og vækkeord: forskellige data, lignende regler

Stemmeassistenter og vækkeord Vækningsord ("Hej Siri", "Alexa", brugerdefinerede vækningsfraser) er en specialiseret udtaleundergruppe med stærke akustiske begrænsninger, men dækningstankegang gælder stadig: forskellige højttalere, enheder og miljøer. Efter opvågning, sproglige ytringer overtage den egentlige opgave ("tænd lyset", "spil jazz"). Hold din vække og opgave forskellige datasæt og evaluer dem separat.

Hvornår (og hvordan) man skal bruge standarddata vs. brugerdefinerede data

Standard vs. brugerdefinerede data

  • Hyldevare: kickstart dækningen på nye steder, og mål derefter, hvor der stadig er forvirring.
  • Tilpasset: indfang dit domænesprog (politiktermer, produktnavne) og "brand voice".
  • BlendedStart bredt, og tilføj derefter højpræcisionsdata for de intentioner med den største afbøjning eller omsætningspåvirkning.

Hvis du har brug for en hurtig tilkørsel, tilbyder Shaip samling af ytringer og standard tale-/chatdatasæt på tværs af mange sprog; se casestudiet for en udrulning af flersproget assistent.

Implementeringstjekliste

Implementeringstjekliste

  • Definer intentioner og enheder med eksempler og negativ tilfælde
  • Forfatter varieret, afbalanceret ytringer for hver intention (start småt, øg ugentligt)
  • Tilføj validatorer (sprog, volapyk, dubletter, regex) før træning
  • Opsætning anmeldelsesløkker fra reel trafik; promover tvetydige elementer til træning 
  • Spor intention om sundhed og kollisioner; rettelse med nye ytringer
  • Reevaluer efter kanal/lokalitet for at opdage afvigelser tidligt

Hvordan Shaip kan hjælpe

  • Indsamling og mærkning af brugerdefinerede ytringer (chat + stemme) med validatorer for at holde kvaliteten høj.
  • Klar til brug datasæt på tværs af 150+ sprog/varianter for hurtig opstart.
  • Løbende evalueringsprogrammer der omdanner livetrafik til træningsdata med højt signal – sikkert (PII-kontroller).

Udforsk vores flersprogede Casestudie om indsamling af ytringer.

Social Share

Saip
Beskyttelse af personlige oplysninger

Denne hjemmeside bruger cookies, så vi kan give dig den bedst mulige brugeroplevelse. Cookieoplysninger gemmes i din browser og udfører funktioner som at genkende dig, når du vender tilbage til vores hjemmeside og hjælper vores team til at forstå, hvilke dele af hjemmesiden du finder mest interessante og nyttige.