Crowd Workers til dataindsamling

Crowd Workers til dataindsamling – en uundværlig del af etisk kunstig intelligens

I vores bestræbelser på at bygge robuste og objektive AI-løsninger er det relevant, at vi fokuserer på at træne modellerne på et objektivt, dynamisk og repræsentativt udvalg af data. Vores dataindsamlingsproces er ekstremt vigtig for at udvikle troværdige AI-løsninger. I denne henseende indsamling AI træningsdata gennem crowd workers bliver et kritisk aspekt af dataindsamlingsstrategien.

Lad os i denne artikel undersøge crowd workers rolle, dens indflydelse på udvikling af AI lærende algoritmer og ML-modeller, og de behov og fordele, det giver til hele processen. 

Hvorfor er crowd workers forpligtet til at bygge AI-modeller?

Som mennesker genererer vi tonsvis af data, men alligevel er kun en brøkdel af disse genererede og indsamlede data af værdi. På grund af manglen på databenchmarking-standarder er de fleste af de indsamlede data enten partiske, fyldt med kvalitetsproblemer eller ikke repræsentative for miljøet. Siden mere og mere machine learning og deep learning-modeller udvikles, der trives med enorme mængder data, bliver behovet for bedre, nyere og forskelligartede datasæt i stigende grad mærket.

Det er her crowd workers kommer i spil.

Crowd-sourcing-data bygger et datasæt med deltagelse af store grupper af mennesker. Crowd-arbejdere tilfører menneskelig intelligens til kunstig intelligens.

Crowd-sourcing platforme give dataindsamling og annotering mikroopgaver til en stor og diversificeret gruppe mennesker. Crowdsourcing giver virksomheder adgang til en massiv, dynamisk, omkostningseffektiv og skalerbar arbejdsstyrke.

Den mest populære crowd-sourcing-platform - Amazon Mechanical Turk, var i stand til at hente 11 menneske-til-menneske-dialoger inden for 15 timer, og det betalte arbejderne $0.35 for hver vellykket dialog. Crowd-arbejdere bliver engageret for et så ringe beløb, hvilket kaster lys over vigtigheden af ​​at opbygge etiske datakildestandarder.

Teoretisk set lyder det som en smart plan, men alligevel er det ikke en nem strategi at udføre. Anonymiteten for crowd-arbejderne har givet anledning til problemer med lav løn, tilsidesættelse af arbejdstagerrettigheder og dårlig kvalitetsarbejde, der påvirker AI-modellens ydeevne. 

Fordele ved at have crowd workers til at hente data

Ved at engagere en mangfoldig gruppe af crowd workers kan AI-baserede løsningsudviklere distribuere mikroopgaver og samle varierede og udbredte observationer hurtigt og til en relativt lav pris.

Nogle af de fremtrædende fordele ved at ansætte crowd workers til AI-projekter er

Data collection benefits through crowd workers

Hurtigere tid til markedsføring: Ifølge forskning fra Cognilytica, næsten 80 % of kunstig intelligens projekttid bruges på dataindsamlingsaktiviteter såsom datarensning, mærkning og aggregering af det. Kun 20 % af tiden bruges på udvikling og træning. De traditionelle barrierer for at generere data er elimineret, da et stort antal bidragydere kan rekrutteres inden for kort tid. 

Omkostningseffektiv løsning: Crowd-sourcet dataindsamling reducerer den tid og energi, der bruges på at træne, rekruttere og bringe dem om bord. Dette eliminerer de omkostninger, tid og ressourcer, der kræves, da arbejdsstyrken er ansat på en pay-per-task-metode. 

Øger mangfoldigheden i datasættet: Datadiversitet er afgørende for hele AI-løsningstræningen. For at en model kan producere objektive resultater, skal den trænes på et mangfoldigt datasæt. Med crowd-sourcing af data er det muligt at generere forskellige (geografiske, sprog, dialekter) datasæt med ringe indsats og omkostninger.

Forbedrer skalerbarhed: Når du rekrutterer pålidelige crowd workers, kan du sikre høj kvalitet dataindsamling, der kan skaleres ud fra dine projektbehov.

In-house vs. crowdsourcing – Hvem kommer ud som vinderen?

In-house dataCrowdsourced data
Datanøjagtighed og konsistens kan garanteres.Datakvalitet, nøjagtighed og konsistens kan opretholdes, hvis pålidelige crowd-sourcing-platforme med standard QA-foranstaltninger er engageret
In-house data sourcing er ikke altid en praktisk beslutning, da dit interne team muligvis ikke opfylder projektkravene.Datadiversitet kan sikres, da det er muligt at rekruttere en heterogen gruppe af crowd workers baseret på projektets behov.
Dyrt at rekruttere og uddanne medarbejdere til projektets behov.Omkostningseffektiv løsning på dataindsamling da det er muligt at rekruttere, uddanne og ombord medarbejdere med færre investeringer.
Time to market er høj, da intern dataindsamling tager lang tid.Time to market er væsentligt mindre, da mange bidrag kommer hurtigt.
En lille gruppe af interne bidragydere og etiketteEn stor og mangfoldig gruppe af bidragydere og dataetiketter
Datafortroligheden er meget høj med et internt team.Datafortrolighed er vanskelig at opretholde, når man arbejder med store menneskemængder over hele verden.
Lettere at spore, træne og evaluere dataindsamlerneUdfordrende at spore og træne dataindsamlerne.

Bygge bro mellem crowdsource-medarbejdere og anmoderen.

Bridging the gap between crowdsource workers and requestor Der er et dybt behov for at bygge bro mellem menneskemængdearbejdere og anmodere, ikke kun på lønområdet.

Der er en åbenlys mangel på information fra rekvirentens side, fordi arbejderne kun får information om den konkrete opgave. For eksempel, selvom arbejdere får mikroopgaver såsom at optage dialoger på deres modersmål, får de sjældent kontekst. De har ikke den nødvendige information om, hvorfor de gør, som de gør, og hvordan de bedst gør det. Denne mangel på information påvirker kvaliteten af ​​det crowd-sourcede arbejde.

For et menneske giver det at have hele konteksten klarhed og formål til deres arbejde.

Tilføj til denne blanding endnu en dimension af NDA - tavshedspligten, som begrænser mængden af ​​information, som en crowd worker leveres. Fra et crowd worker-perspektiv viser denne tilbagetrækning af information en mangel på tillid og mindsket betydning for deres arbejde.

Når man ser på den samme situation fra den anden ende af spektret, er der mangel på gennemsigtighed fra arbejderens ende. Anmoderen forstår ikke helt den medarbejder, der er bestilt til at udføre arbejdet. Nogle projekter kan kræve en bestemt type arbejder; i de fleste projekter er der dog uklarhed. Det grundsandhed er dette kan komplicere evaluering, feedback og træning langs linjen.

For at imødegå disse vanskeligheder er det vigtigt at arbejde med dataindsamlingseksperter, der har en track record i at levere forskelligartede, kurerede og velrepræsenterede data fra et bredt udvalg af bidragydere.

At vælge Shaip som din datapartner kan have flere fordele. Vi fokuserer på mangfoldighed og repræsentative distributioner af data. Vores erfarne og dedikerede medarbejdere forstår tvangene ved hvert projekt og udvikler datasæt, der kan træne robuste AI-baserede løsninger på ingen tid.

[Læs også: AI Training Data Starter Guide: Definition, Eksempel, Datasæt]

Social Share