Definition
En stor sprogmodel (LLM) er et neuralt netværk, der er trænet på store tekstkorpora for at forstå og generere menneskeligt sprog. LLM'er bruger milliarder af parametre til at indfange sproglige mønstre.
Formål
Formålet er at muliggøre avancerede NLP-opgaver såsom tekstgenerering, opsummering og oversættelse. LLM'er bruges i chatbots, søge- og produktivitetsværktøjer.
Vigtighed
- Driver moderne samtalebaseret AI.
- Risiko for bias, misinformation og hallucinationer.
- Høje beregningsmæssige og miljømæssige omkostninger.
- Kræver omhyggelig tilpasning og styring.
Hvordan det virker
- Indsaml store tekstdatasæt.
- Tokeniser tekst til numeriske repræsentationer.
- Togtransformermodeller med milliarder af parametre.
- Lær at forudsige den næste token i kontekst.
- Finjuster eller tilpas til downstream-opgaver.
Eksempler (den virkelige verden)
- GPT-4 (OpenAI): brugt i ChatGPT.
- PaLM (Google): storstilet LLM til forskning og produkter.
- LLaMA (Meta): åben forskningsfokuseret LLM.
Referencer / Yderligere læsning
- Vaswani m.fl. “Opmærksomhed er alt, hvad du behøver.” NeurIPS 2017.
- OpenAI GPT-4 systemkort.
- Stanford CRFM. “Foundation Models.”
- Alt du behøver at vide om LLM
