Definition
Modelevaluering er processen med at vurdere, hvor godt en maskinlæringsmodel klarer sig på usete data ved hjælp af målinger som nøjagtighed, præcision, genkendelse eller F1-score.
Formål
Formålet er at validere modellens ydeevne, opdage overtilpasning og sikre pålidelighed før implementering. Det giver bevis for, at modellerne opfylder de tilsigtede mål.
Vigtighed
- Sikrer at modeller generaliserer ud over træningsdata.
- Vejleder forbedringer i design og træning.
- Hjælper med at sammenligne konkurrerende algoritmer.
- Støtter regulatorisk og etisk ansvarlighed.
Hvordan det virker
- Opdel data i trænings-, validerings- og testsæt.
- Træn model på træningsdata.
- Evaluer forudsigelser på testdata ved hjælp af metrikker.
- Analyser fejl og bias.
- Iterer for at forbedre ydeevnen.
Eksempler (den virkelige verden)
- Kaggle-konkurrencer: modeller evalueret med udeholdte testsæt.
- AI i sundhedsvæsenet: modeller evalueret for følsomhed og specificitet.
- Selvkørende AI: evalueret med virkelige kørescenarier.
Referencer / Yderligere læsning
- Han et al. Maskinlæring: Et probabilistisk perspektiv. MIT Press.
- NIST AI-risikostyringsramme.
- IEEE-transaktioner om mønsteranalyse og maskinintelligens.
- En begyndervejledning til evaluering af store sprogmodeller