Definition
AI-træningsdata er det mærkede datasæt, der bruges til at lære maskinlæringsmodeller at identificere mønstre og generere forudsigelser. Det repræsenterer den "grundliggende sandhed", som modeller justerer deres interne parametre i forhold til.
Formål
Formålet er at give eksempler, der guider algoritmer til at lære statistiske sammenhænge. Det gør det muligt for modeller at generalisere fra eksempler til usete data.
Vigtighed
- Kvaliteten af træningsdata påvirker direkte modellens nøjagtighed.
- Forudindtagede eller ubalancerede data producerer urimelige eller upålidelige modeller.
- Tilstrækkeligt store datasæt forbedrer generaliseringen.
- Lækage af træningsdata i testsæt kompromitterer evalueringer.
Hvordan det virker
- Definer forudsigelsesopgaven og datasættets krav.
- Indsaml relevante rådata.
- Mærk eller annoter dataene med korrekte output.
- Opdel i trænings-, validerings- og testsæt.
- Træn modellen til at justere vægte baseret på træningsdataene.
Eksempler (den virkelige verden)
- COCO-datasæt: annoterede billeder til detektion og segmentering.
- Common Crawl: Storstilet webtekstdatasæt til foruddannelse af LLM'er.
- LibriSpeech: taledatasæt til ASR-træning.
Referencer / Yderligere læsning
- Træningsdata til maskinlæring — IBM Research.
- ISO/IEC 23053: Rammeværk for AI-systemer, der bruger ML — ISO.
- NIST AI-risikostyringsramme — NIST.
- Hvad er træningsdata i maskinlæring – Shaip