Tokenisering i LLM'er

Tokenisering i LLM'er

Definition

Tokenisering er processen med at opdele tekst i mindre enheder (tokens) såsom ord, underord eller tegn, der fungerer som input til sprogmodeller.

Formål

Formålet er at standardisere tekst til håndterbare komponenter til træning og inferens i LLM'er.

Vigtighed

  • Grundlæggende forbehandlingstrin i NLP.
  • Påvirker ordforrådets størrelse og effektivitet.
  • Valg af tokenisering påvirker nøjagtighed og ydeevne.
  • Relateret til indlejringer og modeltræning.

Hvordan det virker

  1. Definer tokeniseringsskema (ord, underord, tegn).
  2. Anvend tokenizer til inputtekst.
  3. Tilknyt tokens til numeriske ID'er.
  4. Indsæt tokens i modellen til behandling.
  5. Konverter outputtokens tilbage til tekst.

Eksempler (den virkelige verden)

  • Byte Pair Encoding (BPE) brugt i GPT-modeller.
  • WordPiece brugt i BERT.
  • SentencePiece brugt i flersproget NLP.

Referencer / Yderligere læsning

  • Sennrich et al. “Neural maskinoversættelse af sjældne ord med underordsenheder.” ACL.
  • Google SentencePiece-dokumentation.
  • Jurafsky & Martin. Tale- og sprogbehandling.

Fortæl os, hvordan vi kan hjælpe med dit næste AI-initiativ.

Saip
Beskyttelse af personlige oplysninger

Denne hjemmeside bruger cookies, så vi kan give dig den bedst mulige brugeroplevelse. Cookieoplysninger gemmes i din browser og udfører funktioner som at genkende dig, når du vender tilbage til vores hjemmeside og hjælper vores team til at forstå, hvilke dele af hjemmesiden du finder mest interessante og nyttige.