Definition
Tekstdataindsamling er processen med at indsamle skriftligt sprog fra kilder som bøger, websteder eller chatlogs til brug i AI-træning.
Formål
Formålet er at skabe korpusa til NLP- og LLM-udvikling.
Vigtighed
- Leverer råmateriale til sprogmodeller.
- Rejser spørgsmål om ophavsret og licenser.
- Datadiversitet påvirker retfærdighed og nøjagtighed.
- Skal filtrere skadeligt eller irrelevant indhold.
Hvordan det virker
- Identificér tekstkilder (web, dokumenter, transskriptioner).
- Crawl eller scrap tekst med tilladelse.
- Rengør og normaliser indhold.
- Gem med metadata for sporbarhed.
- Bruges i præ-træning eller finjustering.
Eksempler (den virkelige verden)
- Almindelig gennemgang: stort webkorpus.
- Wikipedia-dumps: datasæt med struktureret tekst.
- BooksCorpus: bruges til træning af BERT.
Referencer / Yderligere læsning
- Fælles Crawl Foundation.
- Jurafsky & Martin. Tale- og sprogbehandling.
- ISO/IEC TR 20547-5: Referencearkitektur for big data.
- Case-specifik tekstdataindsamling