Definition
Forudtræning er den indledende træning af en maskinlæringsmodel på store generelle datasæt før finjustering af specifikke opgaver.
Formål
Formålet er at levere modeller med brede repræsentationer, der kan overføres til flere opgaver, hvilket reducerer data- og beregningskravene til downstream-tilpasning.
Vigtighed
- Fundament for moderne LLM'er og visionsmodeller.
- Forbedrer ydeevnen på tværs af forskellige opgaver.
- Dyrt i form af data og beregning.
- Kræver omhyggelig datasætkuratering for at undgå bias.
Hvordan det virker
- Indsaml massive generelle datasæt (tekst, billeder).
- Definer uovervågede eller selvovervågede læringsopgaver.
- Træn modeller til at lære generelle funktioner.
- Gem prætrænede vægte til genbrug.
- Finjuster mindre, opgavespecifikke datasæt.
Eksempler (den virkelige verden)
- BERT er foruddannet i Wikipedia og BooksCorpus.
- CLIP trænet på billede-tekst-par.
- GPT-modeller er forudtrænet til storstilet internettekst.
Referencer / Yderligere læsning
- Devlin et al. “BERT: Forudtræning af dybe tovejstransformatorer.” NAACL 2019.
- Radford et al. “Sprogmodeller er få-skuds-lærende.” NeurIPS 2020.
- OpenAI GPT-4 teknisk rapport.