Definition
Dataannotering er processen med at mærke rådata med tags, der gør dem meningsfulde for AI-modeller. Eksempler omfatter mærkning af billeder med objektkategorier eller taggning af tekst med synspunkt.
Formål
Formålet er at skabe træningsdatasæt, der gør det muligt for AI at lære mønstre i superviseret læring. Uden annotering ville mange AI-opgaver ikke være mulige.
Vigtighed
- Giver "grundlæggende sandhed" til træning af ML-modeller.
- Kvaliteten af annotationer påvirker modellens nøjagtighed og retfærdighed.
- Tidskrævende og ressourcekrævende opgave.
- Kræver ofte domæneekspertise (f.eks. medicinsk annotation).
Hvordan det virker
- Definer opgave- og etikettekategorierne.
- Indsamle og forbehandle rådata.
- Brug annotationsværktøjer til mærkning.
- Valider gennem kvalitetstjek.
- Eksporter mærkede data til modeltræning.
Eksempler (den virkelige verden)
- Amazon Mechanical Turk: crowdsourcet annotationsplatform.
- Shaip: dataannotationstjeneste til datasæt for autonome køretøjer.
- Mærkning af radiologiske billeder: Hospitaler annoterer scanninger til AI-diagnose.
Referencer / Yderligere læsning
- Dataannotering til AI — NIST.
- Annotering og mærkning af datasæt — IEEE-transaktioner om datateknik.
- ISO/IEC 24617: Semantisk annotationsramme — ISO.
- Hvad er dataannotation – Shaip