Definition
Standarddatasæt er forudindsamlede og offentligt eller kommercielt tilgængelige datasæt, der kan bruges direkte til træning eller evaluering af AI-modeller.
Formål
Formålet er at fremskynde forskning og udvikling ved at stille let tilgængelige data til rådighed uden omkostningsfuld indsamling.
Vigtighed
- Sparer tid og ressourcer for AI-teams.
- Muliggør reproducerbarhed og benchmarking.
- Kan mangle domænespecificitet for visse opgaver.
- Kræver kontrol for bias og licensbegrænsninger.
Hvordan det virker
- Identificer datasættet, der er relevant for AI-opgaven.
- Gennemgå licens- og brugsbegrænsninger.
- Download eller køb datasættet.
- Forbehandling efter behov for kompatibilitet.
- Træn eller evaluer modeller ved hjælp af datasættet.
Eksempler (den virkelige verden)
- MNIST: håndskrevet cifferdatasæt til benchmarking.
- ImageNet: storskala datasæt til computer vision.
- Common Crawl: åbent webtekstdatasæt til NLP.