Definition
Datamærkning er processen med at tildele kategorier, tags eller attributter til rådata, så maskinlæringsmodeller kan lære af dem. Det er centralt for overvåget læring.
Formål
Formålet er at gøre rå datasæt brugbare til træning og evaluering. Etiketter giver de "svar", som modeller har brug for under læring.
Vigtighed
- Afgørende for at bygge præcise overvågede ML-modeller.
- Dårlig mærkning reducerer systemets pålidelighed.
- Ofte arbejdskrævende og dyrt.
- Kræver domæneekspertise inden for områder som medicin eller jura.
Hvordan det virker
- Definer opgaver og mærk skemaet.
- Segmenter rådata i enheder (billeder, sætninger, lydklip).
- Tildel etiketter manuelt eller via semiautomatiske værktøjer.
- Udfør kvalitetstjek og test af overensstemmelse mellem annotatorer.
- Eksporter mærkede datasæt til træning.
Eksempler (den virkelige verden)
- Shaip: mærkningsdata for selvkørende køretøjer.
- Kaggle-datasæt: mærket til ML-konkurrencer.
- Radiologiske billeddatasæt: mærket af medicinske eksperter.
Referencer / Yderligere læsning
- Dataannotering til AI — NIST.
- Annotering og mærkning af datasæt — IEEE-transaktioner om datateknik.
- ISO/IEC 24617: Semantisk annotationsramme — ISO.
- Hvad er datalabeling? Alt hvad en nybegynder behøver at vide – Shaip