Definition
Forstærkningslæring fra menneskelig feedback (RLHF) er en metode til at afstemme AI-modeller med menneskelige værdier ved at inkorporere menneskelige vurderinger i træningsprocessen. Den bruges ofte til at finjustere store sprogmodeller.
Formål
Formålet er at gøre AI-output mere sikkert, nyttigt og i overensstemmelse med menneskelige præferencer. RLHF forbedrer samtalesystemer ved at reducere skadelige, forudindtagede eller irrelevante svar.
Vigtighed
- Giver menneskelig overvågning af AI-træning.
- Forbedrer troværdigheden af AI-systemer.
- Arbejdskrævende på grund af menneskelige annotationsbehov.
- Relateret til præferencemodellering og tilpasningsforskning.
Hvordan det virker
- Indsaml menneskelig feedback, der sammenligner modeloutput.
- Træn en belønningsmodel på menneskelige præferencer.
- Brug forstærkningslæring til at finjustere basismodellen.
- Evaluer præstationen i forhold til tilpasningsmål.
- Iterer med yderligere feedback.
Eksempler (den virkelige verden)
- OpenAI ChatGPT: finjusteret med RLHF for sikrere svar.
- Anthropics konstitutionelle kunstige intelligens: styret af principper snarere end direkte feedback.
- InstructGPT: tidlig OpenAI-model, der demonstrerer RLHF.
Referencer / Yderligere læsning
- Christiano et al. “Dybdegående forstærkningslæring fra menneskelige præferencer.” NeurIPS 2017.
- OpenAI InstructGPT-papir.
- NIST AI-risikostyringsramme.
- Hvad er forstærkende læring med menneskelig feedback (RLHF)?