Dataanmærkning – NER
Navngivet Entity Recognition (NER) Annotation for Clinical NLP
Velkommentarerede og Gold Standard kliniske tekstdata til at træne/udvikle klinisk NLP for at bygge næste version af Healthcare API
Betydningen af klinisk naturlig sprogbehandling (NLP) er blevet mere og mere anerkendt gennem de seneste år og har ført til transformative fremskridt. Klinisk NLP giver computere mulighed for at forstå den rige betydning, der ligger bag en læges skriftlige analyse af en patient. Klinisk NLP kan have flere anvendelsessager lige fra befolkningssundhedsanalyse til forbedring af klinisk dokumentation til talegenkendelse til matchning af kliniske forsøg osv.
For at udvikle og træne nogen kliniske NLP-modeller har du brug for nøjagtige, upartiske og velannoterede datasæt i enorme mængder. Gold Standard og diverse data hjælper med at forbedre præcisionen og genkaldelsen af NLP-motorer.
Bind
Udfordringer
Klienten så frem til at træne og udvikle deres Natural Language Processing (NLP) platform med nye entitetstyper og også identificere forholdet mellem forskellige typer. Desuden evaluerede de leverandører, som tilbød høj nøjagtighed, overholdt lokale love og havde den nødvendige medicinske viden til at kommentere et stort sæt data.
Opgaven var at mærke og kommentere op til 20,000 mærkede journaler inklusive op til 15,000 mærkede journaler fra indlagte og ambulante elektroniske patientjournaler (EPJ) data og op til 5,000 mærkede journaler fra transskriberede medicinske diktater, ligeligt fordelt på (1) geografiske herkomster og ( 2) tilgængelige medicinske specialer.
Så for at opsummere udfordringerne:
- Organiser heterogene kliniske data for at træne NLP-platformen
- Identificer forholdet mellem forskellige enheder for at udlede kritisk information
- Evne og ekspertise til at mærke / kommentere et bredt sæt af komplekse kliniske dokumenter
- Holde omkostningerne under kontrol for at mærke / kommentere en stor mængde data for at træne klinisk NLP inden for den fastsatte tidsramme
- Anmærk enheder i det kliniske datasæt, der består af 75 % EPJ- og 25 % diktatposter.
- Dataafidentifikation på leveringstidspunktet
Andre udfordringer i naturlig sprogforståelse
Ord er unikke, men kan have forskellige betydninger afhængigt af konteksten, hvilket resulterer i tvetydighed på det leksikalske, syntaktiske og semantiske niveau.
Vi kan udtrykke den samme idé med forskellige udtryk, som også er synonymer: stor og stor betyder det samme, når vi beskriver et objekt.
Processen med at finde alle udtryk, der refererer til den samme enhed i en tekst, kaldes coreference resolution.
Afhængigt af talerens personlighed, kan deres hensigt og følelser udtrykkes forskelligt for den samme idé.
Løsning
En stor mængde medicinsk data og viden er tilgængelig i form af medicinske dokumenter, men det er hovedsageligt i et ustruktureret format. Med Medical Entity Annotation / Named Entity Recognition (NER) Annotation var Shaip i stand til at konvertere ustrukturerede data til et struktureret format ved at annotere nyttige oplysninger fra forskellige typer af kliniske optegnelser. Når enheder var identificeret, blev forholdet mellem dem også kortlagt for at identificere kritisk information.
Arbejdets omfang: Annotation for omtale af sundhedsenheder
9 enhedstyper
- Sygdomstilstand
- Medicinsk procedure
- Anatomisk struktur
- Medicin
- Medicinsk udstyr
- Kropsmåling
- Substance Abuse
- Laboratoriedata
- Kropsfunktion
17 Modifikatorer
- Medicinmodifikatorer: Styrke, Enhed, Dosis, Fra, Frekvens, Rute, Varighed, Status
- Kropsmålingsmodifikatorer: Værdi, enhed, resultat
- Proceduremodifikatorer: Metode
• Laboratoriedatamodifikator: Laboratorieværdi, Laboratorieenhed, Laboratorieresultat - Severity
- Procedureresultat
27 Relationer og patientstatus
Resultat
De annoterede data vil blive brugt til at udvikle og træne klientens kliniske NLP-platform, som ville blive inkorporeret i den næste version af deres Healthcare API. Fordelene som kunden opnåede var:
- De data, der er mærket/kommenteret, opfyldte klientens standardretningslinjer for dataannotering.
- Heterogene datasæt blev brugt til at træne NLP-platformen for større nøjagtighed.
- Forholdet mellem forskellige entiteter, dvs. anatomisk kropsstruktur <> Medicinsk udstyr, medicinsk tilstand <> medicinsk udstyr, medicinsk tilstand <> medicin, medicinsk tilstand <> Proceduren blev identificeret for at udlede kritisk medicinsk information.
- Det brede sæt af data, der blev mærket/annoteret, blev også afidentificeret på leveringstidspunktet.
Vores samarbejde med Shaip fremmede vores projekt i Ambient Technology og Conversational AI inden for sundhedsvæsenet markant. Deres ekspertise i at skabe og transskribere syntetiske sundhedsdialoger gav et solidt grundlag, der viste potentialet i syntetiske data til at overvinde regulatoriske udfordringer. Med Shaip navigerede vi disse forhindringer og er nu et skridt tættere på at realisere vores vision om intuitive sundhedsløsninger.