Forbedring af søgeforespørgselsforståelse med menneskelig annotering

Udnyttelse af menneskelig dømmekraft og struktureret taksonomi til konsekvent at håndtere tvetydige edge cases og forbedre søgerelevansen for et førende Polen-baseret e-handelskonglomerat.

Forbedring af søgeforespørgsel

Projektoversigt

Kunden, en førende e-handelsvirksomhed med base i Polen, modtager millioner af søgeforespørgsler dagligt. Mange af disse forespørgsler er tvetydig, inkluderer stavefejl, eller henvis til flere produktkategorier, hvilket skaber udfordringer for automatiserede søgemaskiner.

For at forbedre sSøgenøjagtighed og kundeoplevelse, Shaip udviklede et struktureret annotationsrammeværk inspireret af Baymards undersøgelse. Forespørgsler blev systematisk klassificeret i 11 kategorier (f.eks. produktkategori, tema, specifik attribut, præcis, forhandler, symptom, ikke-produkt osv.) med præferenceregler for at sikre ensartet kategorisering.

 

Forbedring af søgeforespørgsel

Nøglestatistikker

50,000+ kommenterede forespørgsler

på tværs af flere kategorier

11 annotationsklasser

med klare definitioner og prioritetsregler

3-trins arbejdsgang

Annotation ➔ QA ➔ SMV-voldgift

Projektets omfang

Projektet fokuserede på at bygge en omfattende taksonomi at indfange hele spektret af brugernes søgeadfærd på en storstilet markedspladsplatform. Omfanget omfattede:

  • Udvikling af en taksonomi med 11 kategorier med klare definitioner og et prioritetshierarki til at håndtere tilfælde, hvor forespørgsler kan passe ind i mere end én klasse.
  • Annotering af tusindvis af rigtige forespørgsler på tværs af både produkt- og ikke-produktdomæner for at træne og kalibrere klassifikationssystemet.
  • Løsning af tvetydige forespørgsler ved at eskalere til fageksperter (SMV'er) og sikre ensartethed i, hvordan kantsager blev håndteret.
  • Giv kommenterede eksempler og begrundelser til QA-kalibrering, hvilket skaber et træningssæt, som fremtidige annotatorer kan stole på som reference.

Eksempel på annotationer inkluderet:

  • De dietrich ELENSIO ➔ Præcis
  • E 91 ➔ Svært at sige
  • tezfiles ➔ Købmand
  • Subaru BRZ Toyota GT86 ➔ Ikke-produkt
  • okulary BHP ➔ Produktkategori
  • Stawu skokowego ➔ Symptom

Udfordringer

Projektet måtte overkomme adskillige problemer med datakompleksitet som er typiske i e-handelssøgemiljøer:

tvetydigheden

Søgeord som "E 91" kan svare til vidt forskellige produkter (en bilmodel, en sikringsholder, et aftryk af en kapsel), hvilket gør fortolkningen meget usikker.

Typografiske fejl og varianter

Stavefejl eller forkortelser, såsom "lampa uf zestaw", krævede kontekstuel menneskelig fortolkning for at blive forstået som "lampa UV zestaw".

Overlappende kategorier

Forespørgsler matchede ofte flere klasser (f.eks. Eksakt vs. Kompatibel vs. Specifik attribut), hvilket krævede prioritetsregler for at sikre konsistens.

Ugyldige input

Seriekoder eller identifikatorer uden produktmatch skulle mærkes som "Ugyldig sætning" i stedet for at blive fejlklassificeret.

Skalerbarhed

Konsekvent anvendelse af nuancerede klassificeringsregler på tværs titusindvis af forespørgsler krævede stærk QA og annotationsstyring.

Løsning

For at imødegå disse udfordringer, en struktureret annotationsramme blev introduceret, der balancerede automatisering med menneskeligt tilsyn:

Retningslinjer for anmærkning

Detaljerede definitioner, eksempler og instruktioner blev udarbejdet for at hjælpe annotatorer med at klassificere ensartet, selv i komplekse scenarier.

Prioritetsregler

Der blev etableret et hierarki (f.eks. Kompatibel > Eksakt > Specifik attribut), så overlappende sager blev løst systematisk.

Flerniveau QA-proces

  1. Indledende annotering af uddannede annotatorer.
  2. Sekundær gennemgang af QA-specialister.
  3. Eskalering til SMV'er med henblik på voldgift i marginalsager eller uenigheder

Praktisk anvendelse af retningslinjer med spørgsmål fra den virkelige verden

  • 4008146044786 ➔ Ugyldig sætning
  • miraculum królika Tematisk attribut
  • zcd galaktisk grå Kompatibel
  • owczarek belgisk Tema

 Dette sikrede justering, kvalitet og pålidelighed på tværs af annotationspipelinen.

Resultat

Initiativet leverede målbare forbedringer af klientens søgeøkosystem:

  • 50,000+ forespørgsler klassificeret med høj præcision, hvilket danner et robust træningsdatasæt til søgeforbedringer.
  • Forbedret relevans af søgeresultater, hvilket direkte øger brugertilfredsheden og reducerer frustration fra irrelevante matches.
  • Reduceret tvetydighed ved systematisk at løse edge-sager gennem SMV-drevet voldgift og præcedensregler.
  • Forbedret produktopdagelse, hvilket sikrer, at brugerne kan finde varer mere præcist på tværs af kategorier, attributter og temaer.

Samlet set lagde projektet grundlaget for en en mere intelligent og brugerfokuseret søgeoplevelse, hvilket hjælper klienten med at opretholde sin konkurrencefordel på e-handelsmarkedet.

Den menneskelige annoteringsproces har gjort komplekse søgeforespørgsler klarere. Den strukturerede taksonomi og prioritetsreglerne forbedrede vores søgemaskines nøjagtighed betydeligt og gjorde brugeroplevelsen mere problemfri.

– Chef for søgning og opdagelse, Polen-baseret e-handelskonglomerat

Gylden-5-stjernet