Dataanmærkning – NER

Navngivet Entity Recognition (NER) Annotation for Clinical NLP

Ner annotation

Velkommentarerede og Gold Standard kliniske tekstdata til at træne/udvikle klinisk NLP for at bygge næste version af Healthcare API

Betydningen af ​​klinisk naturlig sprogbehandling (NLP) er blevet mere og mere anerkendt gennem de seneste år og har ført til transformative fremskridt. Klinisk NLP giver computere mulighed for at forstå den rige betydning, der ligger bag en læges skriftlige analyse af en patient. Klinisk NLP kan have flere anvendelsessager lige fra befolkningssundhedsanalyse til forbedring af klinisk dokumentation til talegenkendelse til matchning af kliniske forsøg osv.

For at udvikle og træne nogen kliniske NLP-modeller har du brug for nøjagtige, upartiske og velannoterede datasæt i enorme mængder. Gold Standard og diverse data hjælper med at forbedre præcisionen og genkaldelsen af ​​NLP-motorer.

Bind

Antal annoterede dokumenter
10
Antal annoterede sider
10 +
Projektets varighed
< 1 måned

Udfordringer

Klienten så frem til at træne og udvikle deres Natural Language Processing (NLP) platform med nye entitetstyper og også identificere forholdet mellem forskellige typer. Desuden evaluerede de leverandører, som tilbød høj nøjagtighed, overholdt lokale love og havde den nødvendige medicinske viden til at kommentere et stort sæt data.

Opgaven var at mærke og kommentere op til 20,000 mærkede journaler inklusive op til 15,000 mærkede journaler fra indlagte og ambulante elektroniske patientjournaler (EPJ) data og op til 5,000 mærkede journaler fra transskriberede medicinske diktater, ligeligt fordelt på (1) geografiske herkomster og ( 2) tilgængelige medicinske specialer.

Så for at opsummere udfordringerne:

  • Organiser heterogene kliniske data for at træne NLP-platformen
  • Identificer forholdet mellem forskellige enheder for at udlede kritisk information
  • Evne og ekspertise til at mærke / kommentere et bredt sæt af komplekse kliniske dokumenter
  • Holde omkostningerne under kontrol for at mærke / kommentere en stor mængde data for at træne klinisk NLP inden for den fastsatte tidsramme
  • Anmærk enheder i det kliniske datasæt, der består af 75 % EPJ- og 25 % diktatposter.
  • Dataafidentifikation på leveringstidspunktet

Andre udfordringer i naturlig sprogforståelse

tvetydigheden

Ord er unikke, men kan have forskellige betydninger afhængigt af konteksten, hvilket resulterer i tvetydighed på det leksikalske, syntaktiske og semantiske niveau.

synonymi

Vi kan udtrykke den samme idé med forskellige udtryk, som også er synonymer: stor og stor betyder det samme, når vi beskriver et objekt.

Coreference

Processen med at finde alle udtryk, der refererer til den samme enhed i en tekst, kaldes coreference resolution.

Personlighed, hensigt, følelser

Afhængigt af talerens personlighed, kan deres hensigt og følelser udtrykkes forskelligt for den samme idé.

Løsning

En stor mængde medicinsk data og viden er tilgængelig i form af medicinske dokumenter, men det er hovedsageligt i et ustruktureret format. Med Medical Entity Annotation / Named Entity Recognition (NER) Annotation var Shaip i stand til at konvertere ustrukturerede data til et struktureret format ved at annotere nyttige oplysninger fra forskellige typer af kliniske optegnelser. Når enheder var identificeret, blev forholdet mellem dem også kortlagt for at identificere kritisk information.

Arbejdets omfang: Annotation for omtale af sundhedsenheder

9 enhedstyper

  • Sygdomstilstand
  • Medicinsk procedure
  • Anatomisk struktur
  • Medicin
  • Medicinsk udstyr
  • Kropsmåling
  • Substance Abuse
  • Laboratoriedata
  • Kropsfunktion

17 Modifikatorer

  • Medicinmodifikatorer: Styrke, Enhed, Dosis, Fra, Frekvens, Rute, Varighed, Status
  • Kropsmålingsmodifikatorer: Værdi, enhed, resultat
  • Proceduremodifikatorer: Metode
    • Laboratoriedatamodifikator: Laboratorieværdi, Laboratorieenhed, Laboratorieresultat
  • Severity
  • Procedureresultat

27 Relationer og patientstatus

Resultat

De annoterede data vil blive brugt til at udvikle og træne klientens kliniske NLP-platform, som ville blive inkorporeret i den næste version af deres Healthcare API. Fordelene som kunden opnåede var:

  • De data, der er mærket/kommenteret, opfyldte klientens standardretningslinjer for dataannotering.
  • Heterogene datasæt blev brugt til at træne NLP-platformen for større nøjagtighed.
  • Forholdet mellem forskellige entiteter, dvs. anatomisk kropsstruktur <> Medicinsk udstyr, medicinsk tilstand <> medicinsk udstyr, medicinsk tilstand <> medicin, medicinsk tilstand <> Proceduren blev identificeret for at udlede kritisk medicinsk information.
  • Det brede sæt af data, der blev mærket/annoteret, blev også afidentificeret på leveringstidspunktet.

Vores samarbejde med Shaip fremmede vores projekt i Ambient Technology og Conversational AI inden for sundhedsvæsenet markant. Deres ekspertise i at skabe og transskribere syntetiske sundhedsdialoger gav et solidt grundlag, der viste potentialet i syntetiske data til at overvinde regulatoriske udfordringer. Med Shaip navigerede vi disse forhindringer og er nu et skridt tættere på at realisere vores vision om intuitive sundhedsløsninger.

Gylden-5-stjernet

Fremskynde din samtale AI
applikationsudvikling med 100%