Talefølelse og følelsesanalyse

Aktiverer smartere callcentre med AI-drevet indsigt

Udnyttelse af Shaips ekspertise inden for lyddataindsamling og annotering for at forbedre realtidsregistrering af følelser og følelser for forbedret kundeservice.

Talefølelse og følelsesanalyse

Automatiseret tale, følelses- og følelsesanalyse

Kunden samarbejdede med Shaip for at udvikle en automatiseret talefølelses- og sentimentanalysemodel til callcentre. Projektet involverede indsamling og annotering af 250 timers callcenter-lyddata på tværs af fire engelske dialekter - USA, Storbritannien, australsk og indisk. Dette gjorde det muligt for klienten at forbedre deres AI-modeller til at detektere følelser som Glad, Neutral og Vred og følelser som Utilfreds og Tilfreds i kundeinteraktioner i realtid.

Projektet overvandt udfordringer såsom sarkasme-detektion, varierende lydlængder og subtile verbale signaler om utilfredshed og leverede præcise og skalerbare resultater.

Automatiseret talefølelses- og følelsesanalyse

Nøglestatistikker

Callcenter-lyddata indsamlet og kommenteret på tværs af 4 engelske dialekter

250 Hrs

Antal sprog

amerikansk engelsk, britisk engelsk, australsk engelsk og indisk engelsk

Brug cases

Automatiseret tale, følelses- og følelsesanalyse

Projektets omfang

Indsaml og annotér 250 timers callcenter-lyddata på fire engelske dialekter:

  • amerikansk engelsk (30 %)
  • britisk engelsk (30 %)
  • australsk engelsk (20 %)
  • indisk engelsk (20 %)

I Omfang

Projektet består af tre dele:

  • Lyddata med specifikke enheder, herunder metadata.
  • Tilsvarende transskriberede filer med segmentering og tidsstempling detaljer.
  • Følelses- og følelsesannotationer:
    • Lydfølelse: Glad, neutral, vred
    • Transskriptionsfølelse: Ekstremt utilfreds, utilfreds, neutral, tilfreds, ekstremt tilfreds

Udfordringer

Mangfoldighed af dialekter

Det kan være udfordrende at sikre, at lyddataene nøjagtigt repræsenterer de angivne dialekter (USA, UK, australsk og indisk). Forskellige regioner inden for disse kategorier kan bruge varieret ordforråd, accenter og udtale.

Ekspertisekrav

At kommentere lyd og transskriptioner for følelser og følelser kræver uddannede annotatorer, der er fortrolige med de kulturelle nuancer og sproglige finesser i hver dialekt.

Kompleksiteten af ​​følelser og følelser

Lydfølelser og transskriptionsfølelser stemmer ikke altid overens. For eksempel kan en person lyde vred, men faktisk udtrykke tilfredshed. F.eks. håndtering af sarkasmesamtaler i sarkastiske sætninger som "Åh, vidunderligt, en anden person, der ikke kan løse mit problem" skal være korrekt kommenteret for følelser og følelser.

Lydkvalitet

Kvaliteten af ​​lydoptagelserne kan variere, hvilket påvirker transskriptionsnøjagtigheden og følelsesdetektion. Baggrundsstøj, overlappende samtaler og varierende optageudstyr kan udgøre betydelige udfordringer.

Nøjagtig optagelse

Utilfredshed gennem verbale signaler som tunge udåndinger eller andre tegn på frustration.

Løsning

Ved at udnytte avancerede naturlige sprogbehandlingsteknikker (NLP) blev følgende løsninger implementeret:

Dataindsamling

  • 250 timers lyddata opdelt i dialektspecifikke kvoter.
    • amerikansk engelsk (30 % eller 75 timer)
    • engelsk engelsk (30 % eller 75 timer)
    • Australsk engelsk (20 % eller 50 timer)
    • Indisk engelsk (20 % eller 50 timer)
  • Indfødte accentbrugere fra USA, Storbritannien, Australien og Indien.
  • Taleeksempler, der indeholder forskellige toner, med særligt fokus på tilfælde, hvor stemmefølelsen er vred, og tekstfølelsen er utilfreds eller ekstremt utilfreds.

Tekstklassificering/anmærkning

Tekstklassificering

  • Annotering af følelser og følelser baseret på specifikke kategorier:
    • Lydfølelse: Glad, neutral, vred.
    • Transskriptionsfølelse: Ekstremt utilfreds, utilfreds, neutral, tilfreds, ekstremt tilfreds.
  • Hvert lydsegment indeholdt kun én primær følelse.
  • Varierende forsinkelsessegmenter (fra 2 til 30 sekunder) anvendt i samtaler.
  • Transskriptionsformatet fulgte JSON-output, inklusive venstre og højre højttalerinformation, sentiment-tags og sentiment i det sidste segment.

 

Kvalitetssikring

Kvalitetssikring
Transskriptionsnøjagtighed:

  • Sørgede for, at der blev leveret 250 timers lyd med et minimum af:
    • 90 % transcription Error Rate (TER) nøjagtighed.
    • 95 % Word Recognition Rate (WER) nøjagtighed.

QA-proces:

  • Der blev foretaget regelmæssige audits af tilfældigt udvalgte prøver fra datasættet.
    • Brugte automatiserede værktøjer til at måle TER og WER på tværs af datasættet.
    • Manuel gennemgang af markerede sektioner sikrede, at nøjagtighedsgrænserne blev overholdt.

Resultatet

Træningsdataene vil understøtte udviklingen af ​​en automatiseret følelses- og følelsesdetekteringsmodel, der leverer:

  • Følelsesdetektering i realtid i callcenter-interaktioner.
  • Mere effektiv håndtering af komplekse sager, såsom sarkasme eller utilfredshed.
  • Skalerbarhed til fremtidige projekter, nem tilpasning til øgede datamængder og flere sprog.

Leverancer

  • 250 timers lydfiler (i 8 kHz PCM WAV-format, mono)
  • Transskriptionsfiler (med segmentering, sentiment-tags og højttaler-id)
  • Metadata (lydvarighed, højttalerdetaljer osv.)

Partnerskab med Shaip til vores callcenter-dataprojekt har været et afgørende øjeblik i at fremme vores AI-løsninger. Deres team indsamlede og kommenterede 250 timers lyddata på ekspertniveau på tværs af fire vigtige engelske dialekter – USA, Storbritannien, australsk og indisk – hvilket sikrede den højeste kvalitet og præcision. Opmærksomheden på sproglige nuancer på tværs af disse regioner forbedrede væsentligt nøjagtigheden af ​​vores talegenkendelsesmodeller. Derudover har Shaips ekspertise i at håndtere komplekse dataannoteringsprojekter været medvirkende til at hjælpe os med at opbygge pålidelige, kompatible modeller i stor skala.

Gylden-5-stjernet