Januar 25, 2022

Shaip sikrer AI-træningsdata af høj kvalitet til dine AI-modeller

Succesen for enhver AI-model afhænger af kvaliteten af de data, der føres ind i systemet. ML-systemer kører på store mængder data, men de kan ikke forventes at fungere med bare nogen data. Det skal det være AI-træningsdata af høj kvalitet. Hvis outputtet fra AI-modellen skal være autentisk og nøjagtigt, burde dataene til træning af systemet naturligvis være af høje standarder.

De data, som AI- og ML-modellerne trænes på, bør være af højeste kvalitet, så virksomheden kan trække meningsfuld og relevant indsigt fra dem. Alligevel er det en udfordring for virksomhederne at skaffe enorme mængder af heterogene data.

Virksomheder bør stole på udbydere som Shaip, der implementerer strenge datakvalitetsstyringsforanstaltninger i deres processer for at imødegå denne udfordring. Derudover påtager vi os hos Shaip også den løbende transformation af vores systemer for at imødekomme de skiftende udfordringer.

Introduktion til Shaips Data Quality Management

Hos Shaip forstår vi betydningen af pålidelige træningsdata og dens del i udviklingen af ML-modeller og resultatet af AI-baserede løsninger. Ud over at screene vores medarbejdere for færdigheder, er vi lige så fokuserede på at udvikle deres vidensbase og personlige udvikling.

Vi følger strenge retningslinjer og standarddriftsprocedurer implementeret på alle niveauer af processen, så vores træningsdata lever op til kvalitetsbenchmark.

Quality Management
Vores kvalitetsstyringsworkflow har været medvirkende til at levere machine learning og AI-modeller. Med feedback-in-loop er vores kvalitetsstyringsmodel en videnskabeligt testet metode, der har været medvirkende til at levere flere projekter til vores kunder. Vores procesflow for kvalitetsrevision forløber på følgende måde.
- Gennemgang af kontrakten
- Opret en revisionstjekliste
- Dokumentkilde
- Sourcing 2-lags revision
- Annotationstekstmoderering
- Annotation 2-lags revision
- Levering af arbejde
- Kundefeedback
Crowdsource-medarbejdervalg og onboarding
Vores strenge medarbejdervalg og onboarding-proces adskiller os fra resten af konkurrenterne. Vi gennemfører en præcis udvælgelsesproces for kun at få de dygtigste annotatorer med ombord baseret på kvalitetstjeklisten. Vi overvejer:
- Tidligere erfaring som tekstmoderator for at sikre, at deres færdigheder og erfaring matcher vores krav.
- Ydelser i tidligere projekter for at sikre, at deres produktivitet, kvalitet og output var på niveau med projektets behov.
- Omfattende domænekendskab er en forudsætning for at vælge en bestemt arbejder til en specifik vertikal.
Vores udvælgelsesproces slutter ikke her. Vi udsætter arbejderne for en prøveanmærkningstest for at verificere deres kvalifikationer og ydeevne. Baseret på præstationen i forsøget, uenighedsanalyse og spørgsmål og svar vil de blive udvalgt.
Når arbejderne er udvalgt, vil de gennemgå en grundig træningssession ved hjælp af Project SOW, retningslinjer, prøveudtagningsmetoder, tutorials og mere afhængigt af projektets behov.

Lad os diskutere dit krav til AI -træningsdata i dag.

Tjekliste til dataindsamling
Dobbeltlags kvalitetstjek er indført for kun at sikre træningsdata af høj kvalitet sendes videre til næste hold.
Niveau 1: Kvalitetssikringstjek
Shaips QA-team foretager niveau 1 kvalitetstjek til dataindsamling. De tjekker alle dokumenter, og de bliver hurtigt valideret i forhold til de nødvendige parametre.
Niveau 2: Kritisk kvalitetsanalysetjek
CQA-teamet bestående af akkrediterede, erfarne og kvalificerede ressourcer vil evaluere de resterende 20 % af de retrospektive prøver.
Nogle af tjeklistepunkterne for datakildekvalitet omfatter,
- Er URL-kilden autentisk, og giver den mulighed for web-skrabning af data?
- Er der diversitet i de shortlistede URL'er, så bias kan undgås?
- Er indholdet valideret for relevans?
- Indeholder indholdet moderationskategorier?
- Er prioriterede domæner dækket?
- Er dokumenttypen hentet under hensyntagen til distributionen af dokumenttype?
- Indeholder hver moderationsklasse minimumsvolumenpladen?
- Følges Feedback-in-loop-processen?
Tjekliste for dataanmærkninger
I lighed med dataindsamlingen har vi også to lag kvalitetstjekliste til dataannotering.
Niveau 1: Kvalitetssikringstjek
Denne proces sikrer, at 100 % af dokumenterne er korrekt valideret i forhold til de kvalitetsparametre, som teamet og klienten har sat.
Niveau 2: Kritisk kvalitetsanalysetjek
Denne proces sikrer, at 15 til 20 % af de retrospektive prøver også valideres og kvalitetssikres. Dette trin udføres af det kvalificerede og erfarne CQA-team med minimum 10 års erfaring i kvalitetsstyring og Black Belt-holdere.
CQA-teamet sikrer,
- Konsistens i tekstmoderering af brugere
- Tjek om de korrekte sætninger og modereringsklasser bruges til hvert dokument
- Kontrol af metadata
Vi giver også daglig feedback baseret på Pareto Analyse for at sikre, at deres ydeevne er på niveau med kundens krav.
Vi lægger endnu et lag af præstationsanalyse ind for at fokusere på de mindst ydende annotatorer ved hjælp af Bottom Quartile Management. Inden endelig levering sikrer vi også prøvehygiejnetjek er gennemført.
Parametertærskel
Afhængigt af projektets retningslinjer og kundens krav har vi en parametertærskel på 90 til 95 %. Vores team er udstyret og erfarne til at udføre en af følgende metoder for at sikre højere kvalitetsstyringsstandarder.
- F1 Score eller F Mål – for at bedømme ydeevnen af to klassifikatorer – 2* ((præcision * genkaldelse)/ (præcision + genkaldelse))
- DPO eller Defects Per Opportunity-metoden beregnes som et forhold mellem defekter divideret med mulighederne.
Eksempel på revisionstjekliste
Shaips prøvekontrol-tjekliste er en komplet tilpasningsprocedure, der kan skræddersyes til at imødekomme kravene fra projektet og kunden. Det kan modificeres baseret på feedback modtaget fra klienten og afsluttes efter en grundig diskussion.
- Sprogkontrol
- URL og domænekontrol
- Diversitetstjek
- Volumen pr. sprog- og moderationsklasse
- Målrettede søgeord
- Dokumenttype og relevans
- Kontrol af giftige sætninger
- Metadata-tjek
- Konsistenstjek
- Annotationsklassetjek
- Eventuelle andre obligatoriske kontroller i henhold til kundens præference

Vi træffer strenge foranstaltninger for at opretholde datakvalitetsstandarder, fordi vi forstår, at alle AI-baserede modeller er datadrevne. Og at have træningsdata af høj kvalitet er en forudsætning for alle AI- og maskinlæringsmodeller. Vi forstår vigtigheden af kvalitetstræningsdata og deres betydning for ydeevnen og succesen af dine AI-modeller.

Social Share

Tal med en ekspert

Fornavn*
Efternavn*
E-mail*
Telefon*
Om os*
Land*
Land
Kommentarer*
Ved tilmelding er jeg enig med Shaip Privatlivspolitik , Servicevilkår og give mit samtykke til at modtage B2B marketingkommunikation fra Shaip.
CAPTCHA

Download gratis bog

Du vil måske også kunne lide

Shaip sikrer AI-træningsdata af høj kvalitet til dine AI-modeller

Introduktion til Shaips Data Quality Management

Quality Management

Crowdsource-medarbejdervalg og onboarding

Tjekliste til dataindsamling

Tjekliste for dataanmærkninger

Parametertærskel

Eksempel på revisionstjekliste

Social Share

Tal med en ekspert

AI-datatjenester

Specialiseret

Industri

Produkter

Om os

Ressourcer

Kontakt os