Navngivet enhedsgenkendelse (NER)

Named Entity Recognition (NER) – Konceptet, typerne og applikationerne

Hver gang vi hører et ord eller læser en tekst, har vi den naturlige evne til at identificere og kategorisere ordet i personer, sted, placering, værdier og mere. Mennesker kan hurtigt genkende et ord, kategorisere det og forstå sammenhængen. For eksempel, når du hører ordet 'Steve Jobs', kan du straks tænke på mindst tre til fire attributter og adskille enheden i kategorier,

  • Person: Steve Jobs
  • Selskab: æble
  • Beliggenhed: Californien

Da computere ikke har denne naturlige evne, kræver de vores hjælp til at identificere ord eller tekst og kategorisere dem. Det er hvor Navngivet enhedsgenkendelse (NER) kommer i spil.

Lad os få en kort forståelse af NER og dens relation til NLP.

Hvad er navngivet enhedsgenkendelse?

Named Entity Recognition er en del af Natural Language Processing. Det primære formål med NER er at behandle strukturerede og ustrukturerede data og klassificere disse navngivne enheder i foruddefinerede kategorier. Nogle almindelige kategorier omfatter navn, placering, virksomhed, tid, pengeværdier, begivenheder og mere.

I en nøddeskal beskæftiger NER sig med:

  • Navngivet enhedsgenkendelse/detektion – Identifikation af et ord eller en række af ord i et dokument.
  • Navngivet enhedsklassificering – Klassificering af alle detekterede enheder i foruddefinerede kategorier.

Men hvordan er NER relateret til NLP?

Natural Language-behandling hjælper med at udvikle intelligente maskiner, der er i stand til at udtrække mening fra tale og tekst. Machine Learning hjælper disse intelligente systemer med at fortsætte med at lære ved at træne store mængder naturligt sprog datasæt.

Generelt består NLP af tre hovedkategorier:

  • Forstå sprogets struktur og regler – Syntaks
  • At udlede betydningen af ​​ord, tekst og tale og identificere deres relationer – semantik
  • At identificere og genkende talte ord og omdanne dem til tekst - Tale

NER hjælper i den semantiske del af NLP, uddrage betydningen af ​​ord, identificere og lokalisere dem baseret på deres relationer.

Almindelige eksempler på NER

Nogle af de almindelige eksempler på en forudbestemt enhedskategorisering er:

Almindelige eksempler på Ner Person: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Beliggenhed: Canada, Honolulu, Bangkok, Brasilien, Cambridge

Organisation: Samsung, Disney, Yale University, Google

Tid: 15.35, 12,

Andre kategorier omfatter numeriske værdier, udtryk, e-mail-adresser og faciliteter.

Tvetydighed i anerkendelse af navngivne enheder

Den kategori et udtryk tilhører er intuitivt ret klar for mennesker. Det er dog ikke tilfældet med computere – de støder på klassificeringsproblemer. For eksempel:

Manchester By (Organisation) vandt Premier League Trophy, hvorimod organisationen i den følgende sætning bruges anderledes. Manchester By (Placering) var et tekstil- og industrielt kraftcenter.

Din NER-model har brug for træningsdata at udføre nøjagtigt enhedsudvinding og klassifikation. Hvis du træner din model på Shakespearesk engelsk, vil den naturligvis ikke være i stand til at tyde Instagram.

Forskellige NER-tilgange

Det primære mål for en NER model er at mærke enheder i tekstdokumenter og kategorisere dem. De følgende tre tilgange bruges generelt til dette formål. Du kan dog også vælge at kombinere en eller flere metoder.

Lad os diskutere dit krav til AI -træningsdata i dag.

De forskellige tilgange til at skabe NER-systemer er:

  • Ordbogsbaserede systemer

    Det ordbogsbaserede system er måske den mest enkle og grundlæggende NER-tilgang. Den vil bruge en ordbog med mange ord, synonymer og ordforrådssamling. Systemet vil kontrollere, om en bestemt enhed i teksten også er tilgængelig i ordforrådet. Ved at bruge en streng-matchende algoritme udføres en krydstjek af entiteter.

    En ulempe ved at bruge denne tilgang er, at der er et behov for konstant at opgradere ordforrådsdatasættet for NER-modellens effektive funktion.

  • Regelbaserede systemer

    I denne tilgang udtrækkes information baseret på et sæt forudindstillede regler. Der er to primære sæt regler, der anvendes,

    Mønsterbaserede regler – Som navnet antyder, følger en mønsterbaseret regel et morfologisk mønster eller en række af ord, der bruges i dokumentet.

    Kontekstbaserede regler – Kontekstbaserede regler afhænger af betydningen eller konteksten af ​​ordet i dokumentet.

  • Maskinlæringsbaserede systemer

    I maskinlæringsbaserede systemer bruges statistisk modellering til at opdage enheder. En funktionsbaseret repræsentation af tekstdokumentet bruges i denne tilgang. Du kan overvinde flere ulemper ved de to første tilgange, da modellen kan genkende enhedstyper på trods af små variationer i deres stavemåder.

Anvendelser af NER

NER har flere use-cases inden for mange områder relateret til Natural Language Processing og oprettelse af træningsdatasæt til machine learning dyb læring løsninger. Nogle af NER's anvendelser er:

  • Strømlinet kundesupport

    Et NER-system kan nemt spotte relevante kundeklager, forespørgsler og feedback baseret på afgørende information såsom produktnavne, specifikationer, filialplacering og mere. Klagen eller feedback er passende klassificeret og omdirigeret til den korrekte afdeling ved at filtrere prioriterede søgeord.

  • Effektive menneskelige ressourcer

    NER hjælper Human Resource-teams med at forbedre deres ansættelsesproces og reducere tidslinjerne ved hurtigt at opsummere ansøgernes CV. NER-værktøjerne kan scanne CV'et og udtrække relevante oplysninger - navn, alder, adresse, kvalifikationer, college og så videre.

    Derudover kan HR-afdelingen også bruge NER-værktøjer til at strømline de interne arbejdsgange ved at filtrere medarbejderklager og videresende dem til de berørte afdelingschefer.

  • Forenklet indholdsklassificering

    Indholdsklassificering er en enorm opgave for nyhedsudbydere. At klassificere indholdet i forskellige kategorier gør det lettere at opdage, få indsigt, identificere tendenser og forstå emnerne. En navngivet Enhedsanerkendelse værktøj kan komme til nytte for nyhedsudbydere. Det kan scanne mange artikler, identificere prioriterede søgeord og udtrække information baseret på personer, organisation, placering og mere.

  • Optimering af søgemaskiner

    Search Engine Optimization NER hjælper med at forenkle og forbedre hastigheden og relevansen af ​​søgeresultater. I stedet for at køre søgeforespørgslen for tusindvis af artikler, kan en NER-model køre forespørgslen én gang og gemme resultaterne. Så baseret på tags i søgeforespørgslen kan de artikler, der er knyttet til forespørgslen, hurtigt hentes.

  • Præcis indholdsanbefaling

    Flere moderne applikationer er afhængige af NER-værktøjer for at levere en optimeret og tilpasset kundeoplevelse. For eksempel giver Netflix personlige anbefalinger baseret på brugernes søge- og visningshistorik ved hjælp af navngivne enhedsgenkendelse.

Named Entity Recognition gør din machine learning modeller mere effektive og pålidelige. Du har dog brug for kvalitetstræningsdatasæt, for at dine modeller kan fungere på deres optimale niveau og nå tilsigtede mål. Alt du behøver er en erfaren servicepartner, som kan give dig kvalitetsdatasæt klar til brug. Hvis det er tilfældet, er Shaip dit bedste bud endnu. Kontakt os for omfattende NER-datasæt for at hjælpe dig med at udvikle effektive og avancerede ML-løsninger til dine AI-modeller.P

Social Share

Du vil måske også kunne lide