Definition
Named Entity Recognition (NER) er en NLP-opgave, der identificerer og klassificerer enheder i tekst, såsom personer, organisationer, steder, datoer eller produkter.
Formål
Formålet er at strukturere ustruktureret tekst ved at udtrække nøgleenheder. Det understøtter søgning, informationsudtrækning og opbygning af vidensdiagrammer.
Vigtighed
- Grundlæggende for informationssøgning og NLP-pipelines.
- Fejl spreder sig til downstream-applikationer.
- Domænespecifik NER (f.eks. medicinsk, juridisk) kræver brugerdefinerede datasæt.
- Relateret til opgaver som entitetslinkning og relationsudtrækning.
Hvordan det virker
- Indsamle og forbehandle tekst.
- Annoter datasæt med enhedskategorier.
- Træn modeller på mærkede eksempler (CRF'er, transformere).
- Forudsig enheder i uset tekst.
- Valider nøjagtighed med testdata.
Eksempler (den virkelige verden)
- spaCy: open source NLP-bibliotek med indbygget NER.
- Stanford CoreNLP: leverer værktøjer til genkendelse af navngivne enheder.
- Finansiel NLP: udtrækker virksomhedsnavne fra rapporter.
Referencer / Yderligere læsning
- Jurafsky & Martin. Tale- og sprogbehandling. Stanford.
- Lample et al. “Neurale arkitekturer til genkendelse af navngivne enheder.” ACL.
- Krammende ansigtstransformere NER-modeller.
- Hvad er navngiven enhedsgenkendelse (NER)