Definition
Dokumentklassificering er processen med at kategorisere tekstdokumenter i foruddefinerede klasser ved hjælp af maskinlæring eller regelbaserede metoder. Klasser kan omfatte emner, spamdetektion eller sentiment.
Formål
Formålet er at organisere og filtrere store tekstmængder effektivt. Det understøtter søgning, indholdsmoderering og automatiserede arbejdsgange.
Vigtighed
- Sparer tid ved at automatisere kategorisering.
- Nøgle til filtrering af e-mailspam, juridisk opdagelse og vidensstyring.
- Fejl kan føre til manglende eller fejlklassificerede dokumenter.
- Relateret til NLP-opgaver som sentimentanalyse.
Hvordan det virker
- Indsamle og forbehandle tekstdokumenter.
- Repræsenter tekst med funktioner (f.eks. TF-IDF, indlejringer).
- Togklassificeringsmodeller (SVM'er, neurale netværk).
- Valider modelnøjagtigheden på mærkede testsæt.
- Implementer klassifikator til at kategorisere nye dokumenter.
Eksempler (den virkelige verden)
- Gmail spamfilter: klassificerer e-mails i spam og ikke-spam.
- Nyhedsaggregatorer: kategoriser artikler efter emne.
- Juridisk teknologi: klassificerer dokumenter med henblik på indsigt og overholdelse af regler.
Referencer / Yderligere læsning
- Manning m.fl. Introduktion til informationssøgning. Cambridge University Press.
- Jurafsky & Martin. Tale- og sprogbehandling. Stanford.
- IEEE-transaktioner om viden- og datateknik.