Hvis du bad en Gen AI-model om at skrive tekster til en sang, som Beatles ville have, og hvis den gjorde et imponerende stykke arbejde, er der en grund til det. Eller hvis du bad en model om at skrive prosa i stil med din yndlingsforfatter, og den præcist gentog stilen, er der en grund til det.
Selv ganske enkelt er du i et andet land, og når du vil oversætte navnet på en interessant snack, du finder på en supermarkedsgang, registrerer din smartphone etiketter og oversætter teksten problemfrit.
AI står ved omdrejningspunktet for alle sådanne muligheder, og det skyldes primært, at AI-modeller ville være blevet trænet på enorme mængder af sådanne data – i vores tilfælde hundredvis af The Beatles-sange og sandsynligvis bøger fra din yndlingsforfatter.
Med fremkomsten af Generative AI er alle musikere, forfattere, kunstnere eller det hele. Gen AI-modeller frembringer skræddersyede kunstværker på få sekunder, afhængigt af brugerens prompter. De kan skabe Van Gogh-isque kunstværker og endda få Al Pacino til at læse Servicevilkårene op, uden at han er der.
Bortset fra fascination er det vigtige aspekt her etik. Er det rimeligt, at sådanne kreative værker er blevet brugt til at træne AI-modeller, som gradvist forsøger at erstatte kunstnere? Blev der indhentet samtykke fra ejere af sådanne intellektuelle ejendomme? Blev de kompenseret retfærdigt?
Velkommen til 2024: The Year of Data Wars
I løbet af de sidste par år er data yderligere blevet en magnet for at tiltrække virksomheders opmærksomhed for at træne deres Gen AI-modeller. Som et spædbarn er AI-modeller naive. De skal undervises og derefter trænes. Det er derfor, virksomheder har brug for milliarder, hvis ikke millioner, af data til kunstigt at træne modeller til at efterligne mennesker.
For eksempel blev GPT-3 trænet på milliarder (hundrede af dem) af tokens, hvilket løst kan oversættes til ord. Kilder afslører dog, at billioner af sådanne tokens blev brugt til at træne de nyere modeller.
Med så enorme mængder af træningsdatasæt, der kræves, hvor går store teknologivirksomheder hen?
Akut mangel på træningsdata
Ambition og volumen går hånd i hånd. Efterhånden som virksomheder skalerer deres modeller op og optimerer dem, kræver de endnu flere træningsdata. Dette kunne stamme fra krav om at afsløre efterfølgende modeller af GPT eller blot levere forbedrede og præcise resultater.
Uanset tilfældet er det uundgåeligt at kræve rigelige træningsdata.
Det er her, virksomheder står over for deres første vejspærring. For at sige det enkelt, er internettet ved at blive for lille til, at AI-modeller kan trænes på. Det betyder, at virksomheder er ved at løbe tør for eksisterende datasæt til at fodre og træne deres modeller.
Denne udtømmende ressource skræmmer interessenter og teknologientusiaster, da den potentielt kan begrænse udviklingen og udviklingen af AI-modeller, som for det meste er tæt forbundet med, hvordan brands positionerer deres produkter, og hvordan nogle plagende bekymringer i verden opfattes som værende løst med AI-drevet løsninger.
Samtidig er der også håb i form af syntetiske data eller digital indavl, som vi kalder det. I lægmands termer er syntetiske data træningsdata genereret af AI, som igen bruges til at træne modeller.
Selvom det lyder lovende, mener tekniske eksperter, at syntesen af sådanne træningsdata vil føre til det, der kaldes Habsburg AI. Dette er en stor bekymring for virksomheder, da sådanne indavlede datasæt kan besidde faktuelle fejl, bias eller bare være volapyk, hvilket negativt påvirker resultater fra AI-modeller.
Betragt dette som et spil Chinese Whisper, men det eneste twist er, at det første ord, der bliver videregivet, også kan være meningsløst.
Race to sourcing AI-træningsdata
Et af de største fotolager – Shutterstock har 300 millioner billeder. Selvom dette er nok til at komme i gang med træning, ville test, validering og optimering kræve rigelige data igen.
Der er dog andre tilgængelige kilder. Den eneste fangst her er, at de er farvekodede i gråt. Vi taler om de offentligt tilgængelige data fra internettet. Her er nogle spændende fakta:
- Over 7.5 millioner blogindlæg bliver taget live hver eneste dag
- Der er over 5.4 milliarder mennesker på sociale medieplatforme som Instagram, X, Snapchat, TikTok og mere.
- Der findes over 1.8 milliarder websteder på internettet.
- Over 3.7 millioner videoer bliver uploadet på YouTube alene hver eneste dag.
Desuden deler folk offentligt tekster, videoer, fotos og endda emneekspertise gennem podcasts, der kun er lyd.
Disse er eksplicit tilgængelige stykker indhold.
Så det skal være fair at bruge dem til at træne AI-modeller, ikke?
Dette er det grå område, vi nævnte tidligere. Der er ingen fast holdning til dette spørgsmål, da teknologivirksomheder med adgang til så rigelige mængder af data kommer med nye værktøjer og politiske ændringer for at imødekomme dette behov.
Nogle værktøjer omdanner lyd fra YouTube-videoer til tekst og bruger dem derefter som tokens til træningsformål. Virksomheder reviderer privatlivspolitikker og går endda i det omfang, de bruger offentlige data til at træne modeller med en forudbestemt intention om at stå over for retssager.
Modmekanismer
Samtidig udvikler virksomheder også det, man kalder syntetiske data, hvor AI-modeller genererer tekster, der igen kan bruges til at træne modellerne som en loop.
På den anden side implementerer websteder plugins og koder for at modvirke data-scaping og forhindre virksomheder i at udnytte juridiske smuthuller.
Hvad er den ultimative løsning?
Implikationen af AI i løsningen af problemer i den virkelige verden har altid været understøttet af ædle intentioner. Hvorfor skal sourcing-datasæt til at træne sådanne modeller så stole på grå modeller?
Efterhånden som samtaler og debatter om ansvarlig, etisk og ansvarlig AI bliver fremtrædende og styrket, er det på alle skalaer på virksomheder at skifte til alternative kilder, der har white-hat-teknikker til at levere træningsdata.
Det er her Saip udmærker sig ved. For at forstå de fremherskende bekymringer omkring data sourcing, har Shaip altid slået til lyd for etiske teknikker og har konsekvent praktiseret raffinerede og optimerede metoder til at indsamle og kompilere data fra forskellige kilder.
Sourcing-metoder for White Hat-datasæt
Det er præcis derfor, vores modus operandi involverer omhyggelige kvalitetstjek og teknikker til at identificere og kompilere relevante datasæt. Dette har givet os mulighed for at styrke virksomheder med eksklusive Gen AI-træningsdatasæt på tværs af flere formater såsom billeder, videoer, lyd, tekst og flere nichekrav.
Vores filosofi
Vi arbejder ud fra kernefilosofier som samtykke, privatliv og retfærdighed ved indsamling af datasæt. Vores tilgang sikrer også diversitet i data, så der ikke er introduktion af ubevidst bias.
Mens AI-riget forbereder sig på begyndelsen af en ny æra præget af fair praksis, har vi hos Shaip til hensigt at være flagbærere og forløbere for sådanne ideologier. Hvis utvivlsomt retfærdige og kvalitetsdatasæt er det, du leder efter for at træne dine AI-modeller, så kontakt os i dag.