En fungerende AI-model er bygget på solide, pålidelige og dynamiske datasæt. Uden rig og detaljeret AI-træningsdata ved hånden, er det bestemt ikke muligt at bygge en værdifuld og succesfuld AI-løsning. Vi ved, at projektets kompleksitet dikterer og bestemmer den nødvendige kvalitet af data. Men vi er ikke helt sikre på, hvor meget træningsdata vi skal bruge for at bygge den tilpassede model.
Der er ikke noget ligetil svar på, hvad den rigtige mængde af træningsdata til maskinlæring er nødvendig. I stedet for at arbejde med en boldbane, tror vi på, at en række metoder kan give dig en præcis idé om den datastørrelse, du måtte have brug for. Men før det, lad os forstå, hvorfor træningsdata er afgørende for dit AI-projekts succes.
Betydningen af træningsdata
Arvind Krishna, administrerende direktør i IBM, talte på Wall Street Journals Future of Everything-festival, at næsten 80 % af arbejdet i et AI-projekt handler om at indsamle, rense og forberede data.' Og han var også af den opfattelse, at virksomheder opgiver deres AI-projekter, fordi de ikke kan holde trit med de omkostninger, arbejde og tid, der kræves for at indsamle værdifulde træningsdata.
Bestemmelse af data prøve størrelse hjælper med at designe løsningen. Det hjælper også nøjagtigt at estimere omkostninger, tid og færdigheder, der kræves til projektet.
Hvis der bruges unøjagtige eller upålidelige datasæt til at træne ML-modeller, vil den resulterende applikation ikke give gode forudsigelser.
7 faktorer, der bestemmer mængden af krævede træningsdata
Selvom datakravene med hensyn til volumen for at træne AI-modeller er fuldstændig subjektive og bør tages fra sag til sag, er der et par universelle faktorer, der påvirker objektivt. Lad os se på de mest almindelige.
Machine Learning Model
Træningsdatamængden afhænger af, om din models træning kører på superviseret eller uovervåget læring. Mens førstnævnte kræver flere træningsdata, gør sidstnævnte ikke.
Overvåget læring
Dette indebærer brug af mærkede data, som igen tilføjer kompleksitet til træningen. Opgaver som billedklassificering eller klyngedannelse kræver etiketter eller tilskrivninger, som maskiner kan dechifrere og differentiere, hvilket fører til efterspørgslen efter flere data.
Uovervåget læring
Brugen af mærkede data er ikke et mandat i uovervåget læring, hvilket reducerer behovet for enorme mængder af data relativt. Når det er sagt, ville datamængden stadig være høj for modeller til at opdage mønstre og identificere medfødte strukturer og korrelere dem.
Variabilitet & mangfoldighed
For at en model skal være så retfærdig og objektiv som muligt, bør medfødt bias fjernes fuldstændigt. Dette oversætter kun til det faktum, at der kræves flere mængder af forskellige datasæt. Dette sikrer, at en model lærer mængder af sandsynligheder, der eksisterer, så den kan holde sig væk fra at generere ensidige svar.
Dataforøgelse og overførselslæring
Indhentning af kvalitetsdata til forskellige use cases på tværs af brancher og domæner er ikke altid problemfri. I følsomme sektorer som sundhedspleje eller finans er kvalitetsdata næppe tilgængelige. I sådanne tilfælde bliver dataforøgelse, der involverer brug af syntetiserede data, den eneste vej frem i træningsmodeller.
Eksperimentering og validering
Iterativ træning er balancen, hvor mængden af træningsdata, der kræves, beregnes efter konsekvent eksperimentering og validering af resultater. Gennem gentagne tests og overvågning
modelpræstation, kan interessenter måle, om der kræves flere træningsdata til responsoptimering.
Sådan reduceres træningsdatavolumenkrav
Uanset om det er budgetbegrænsningen, deadline for at komme på markedet eller utilgængeligheden af forskellige data, er der nogle muligheder, som virksomheder kan bruge til at reducere deres afhængighed af enorme mængder træningsdata.
Dataforøgelse
hvor nye data genereres eller syntetiseres fra eksisterende datasæt er ideel til brug som træningsdata. Disse data stammer fra og efterligner forældredata, som er 100 % reelle data.
Overfør læring
Dette involverer ændring af parametrene for en eksisterende model for at udføre og udføre en ny opgave. For eksempel, hvis din model har lært at identificere æbler, kan du bruge den samme model og ændre dens eksisterende træningsparametre for også at identificere appelsiner.
Foruddannede modeller
Hvor eksisterende viden kan bruges som visdom til dit nye projekt. Dette kunne være ResNet til opgaver forbundet med billedidentifikation eller BERT til NLP-brug.
Eksempler fra den virkelige verden på maskinlæringsprojekter med minimale datasæt
Selvom det kan lyde umuligt, at nogle ambitiøse maskinlæringsprojekter kan udføres med minimale råmaterialer, er nogle tilfælde forbløffende sande. Forbered dig på at blive overrasket.
Kaggle-rapport | Medicinal | Klinisk onkologi |
En Kaggle-undersøgelse afslører, at over 70 % af maskinlæringsprojekterne blev afsluttet med mindre end 10,000 prøver. | Med kun 500 billeder trænede et MIT-hold en model til at opdage diabetisk neuropati i medicinske billeder fra øjenscanninger. | I forlængelse af eksemplet med sundhedspleje lykkedes det et team fra Stanford University at udvikle en model til at opdage hudkræft med kun 1000 billeder. |
Gæt uddannede gæt
Der er ikke noget magisk tal vedrørende den mindste mængde data, der kræves, men der er et par tommelfingerregler, som du kan bruge til at nå frem til et rationelt tal.
Reglen om 10
Som en tommelfingerregelFor at udvikle en effektiv AI-model bør antallet af nødvendige træningsdatasæt være ti gange mere end hver modelparameter, også kaldet frihedsgrader. '10' gange-reglerne har til formål at begrænse variabiliteten og øge mangfoldigheden af data. Som sådan kan denne tommelfingerregel hjælpe dig med at få dit projekt i gang ved at give dig en grundlæggende idé om den nødvendige mængde datasæt.
Deep Learning
Deep learning-metoder hjælper med at udvikle modeller af høj kvalitet, hvis mere data leveres til systemet. Det er generelt accepteret, at det at have 5000 mærkede billeder pr. kategori burde være nok til at skabe en dyb læringsalgoritme, der kan fungere på lige fod med mennesker. For at udvikle exceptionelt komplekse modeller kræves der mindst 10 millioner mærkede genstande.
Computer Vision
Hvis du bruger deep learning til billedklassificering, er der enighed om, at et datasæt med 1000 mærkede billeder for hver klasse er et rimeligt antal.
Læringskurver
Læringskurver bruges til at demonstrere maskinlæringsalgoritmens ydeevne i forhold til datamængde. Ved at have modelfærdigheden på Y-aksen og træningsdatasættet på X-aksen er det muligt at forstå, hvordan størrelsen af dataene påvirker resultatet af projektet.
Ulemperne ved at have for lidt data
Du synes måske, at det er ret indlysende, at et projekt har brug for store mængder data, men nogle gange kan selv store virksomheder med adgang til strukturerede data ikke skaffe dem. Træning på begrænsede eller snævre datamængder kan stoppe maskinlæringsmodeller fra at opnå deres fulde potentiale og øge risikoen for at give forkerte forudsigelser.
Selvom der ikke er nogen gylden regel, og der normalt foretages en grov generalisering for at forudse behov for træningsdata, er det altid bedre at have store datasæt end at lide af begrænsninger. Den databegrænsning, som din model lider af, ville være begrænsningerne for dit projekt.
Hvad skal du gøre, hvis du har brug for flere datasæt
Selvom alle gerne vil have adgang til store datasæt, er det lettere sagt end gjort. At få adgang til store mængder datasæt af kvalitet og mangfoldighed er afgørende for projektets succes. Her giver vi dig strategiske trin til at gøre dataindsamling meget lettere.
Åbn Datasæt
Åbne datasæt betragtes normalt som en 'god kilde' til gratis data. Selvom dette kan være sandt, er åbne datasæt ikke, hvad projektet har brug for i de fleste tilfælde. Der er mange steder, hvorfra data kan fremskaffes, såsom offentlige kilder, EU Open dataportaler, Google Public data explorers og mere. Der er dog mange ulemper ved at bruge åbne datasæt til komplekse projekter.
Når du bruger sådanne datasæt, risikerer du træning og test din model på forkerte eller manglende data. Dataindsamlingsmetoderne er generelt ikke kendte, hvilket kan påvirke projektets resultat. Privatliv, samtykke og identitetstyveri er væsentlige ulemper ved at bruge åbne datakilder.
Udvidet datasæt
Når du har noget mængden af træningsdata men ikke nok til at opfylde alle dine projektkrav, du skal anvende dataforøgelsesteknikker. Det tilgængelige datasæt er genbrugt for at imødekomme modellens behov.
Dataprøverne vil gennemgå forskellige transformationer, der gør datasættet rigt, varieret og dynamisk. Et simpelt eksempel på dataforøgelse kan ses, når man har med billeder at gøre. Et billede kan forstørres på mange måder - det kan klippes, ændres størrelse, spejles, omdannes til forskellige vinkler, og farveindstillinger kan ændres.
Syntetiske data
Når der er utilstrækkelige data, kan vi henvende os til syntetiske datageneratorer. Syntetiske data er praktiske i forhold til overførselslæring, da modellen først kan trænes på syntetiske data og senere på datasættet i den virkelige verden. For eksempel kan et AI-baseret selvkørende køretøj først trænes til at genkende og analysere objekter i computersyn computerspil.
Syntetiske data er gavnlige, når der er mangel på det virkelige liv data til at træne og test din trænede modeller. Desuden bruges det også i forbindelse med privatliv og datafølsomhed.
Brugerdefineret dataindsamling
Brugerdefineret dataindsamling er måske ideel til at generere datasæt, når andre formularer ikke giver de nødvendige resultater. Datasæt af høj kvalitet kan genereres ved hjælp af web-skrabeværktøjer, sensorer, kameraer og andre værktøjer. Når du har brug for skræddersyede datasæt, der forbedrer ydeevnen af dine modeller, kan det være det rigtige skridt at skaffe brugerdefinerede datasæt. Adskillige tredjepartstjenesteudbydere tilbyder deres ekspertise.
For at udvikle højtydende AI-løsninger skal modellerne trænes i pålidelige datasæt af god kvalitet. Det er dog ikke let at få fat i rige og detaljerede datasæt, der positivt påvirker resultaterne. Men når du samarbejder med pålidelige dataudbydere, kan du bygge en kraftfuld AI-model med et stærkt datagrundlag.
Har du et godt projekt i tankerne, men venter på skræddersyede datasæt til at træne dine modeller eller kæmper du for at få det rigtige resultat af dit projekt? Vi tilbyder omfattende træningsdatasæt til en række projektbehov. Udnyt potentialet ved Saip ved at tale med en af vores data forskere i dag og forstå, hvordan vi tidligere har leveret højtydende kvalitetsdatasæt til kunder.