Definition
Tokenisering er processen med at opdele tekst i mindre enheder (tokens) såsom ord, underord eller tegn, der fungerer som input til sprogmodeller.
Formål
Formålet er at standardisere tekst til håndterbare komponenter til træning og inferens i LLM'er.
Vigtighed
- Grundlæggende forbehandlingstrin i NLP.
- Påvirker ordforrådets størrelse og effektivitet.
- Valg af tokenisering påvirker nøjagtighed og ydeevne.
- Relateret til indlejringer og modeltræning.
Hvordan det virker
- Definer tokeniseringsskema (ord, underord, tegn).
- Anvend tokenizer til inputtekst.
- Tilknyt tokens til numeriske ID'er.
- Indsæt tokens i modellen til behandling.
- Konverter outputtokens tilbage til tekst.
Eksempler (den virkelige verden)
- Byte Pair Encoding (BPE) brugt i GPT-modeller.
- WordPiece brugt i BERT.
- SentencePiece brugt i flersproget NLP.
Referencer / Yderligere læsning
- Sennrich et al. “Neural maskinoversættelse af sjældne ord med underordsenheder.” ACL.
- Google SentencePiece-dokumentation.
- Jurafsky & Martin. Tale- og sprogbehandling.