Definition
AI-dataindsamling er processen med at indsamle rådata – tekst, lyd, billeder, video eller strukturerede poster – der bruges til at træne, validere og teste maskinlæringsmodeller. Det sikrer, at modellerne har repræsentative eksempler på det virkelige problem.
Formål
Formålet er at opbygge datasæt, der gør det muligt for algoritmer at lære mønstre effektivt. Pålidelig dataindsamling reducerer bias og forbedrer modelnøjagtigheden på tværs af forskellige miljøer og populationer.
Vigtighed
- Kvaliteten af de indsamlede data påvirker direkte modellens resultater.
- Dårlig indsamling kan føre til forudindtagede eller ubrugelige modeller.
- Diverse kilder forbedrer generaliserbarheden og reducerer urimelighed.
- Skal følge etiske og juridiske standarder (f.eks. GDPR, HIPAA).
Hvordan det virker
- Definer den nødvendige datatype baseret på projektets mål.
- Identificér kilder (sensorer, API'er, undersøgelser, optagelser osv.).
- Indsaml data med korrekt samtykke og beskyttelse af privatlivets fred.
- Gem data med metadata for sporbarhed og kontekst.
- Forbered data til senere annotering, rensning eller træning.
Eksempler (den virkelige verden)
- ImageNet: Storskala billeddatasæt til forskning i computersyn.
- Google Street View: data indsamlet til kort og visuel AI.
- Mozilla Common Voice: åbent datasæt med taleoptagelser til ASR.
Referencer / Yderligere læsning
- Datablade for datasæt — Gebru et al., ACM FAccT.
- Dataforberedelse til AI-systemer — NIST.
- ISO/IEC TR 20547-5: Referencearkitektur for big data — ISO.