Casestudie: Medicinsk datasæt-licensering

Forvandling af pædiatrisk og OB-GYN-pleje gennem præcisionsdatakurering og annotationstræning

Frigør kraften ved medicinske data: Omfattende datakurering, afidentifikation, ICD-10 CM og annotering til overlegen AI-modeltræning.

Medicinsk datasæt licensering

Projektoversigt

Shaip samarbejdede med en førende AI-virksomhed i sundhedssektoren for at kuratere og kommentere højkvalitets, afidentificerede medicinske datasæt til træning af avancerede NLP-modeller. Projektet fokuserede på pædiatri og OB-GYN-specialiteter og leverede ambulante journaler kommenteret med ICD-10 CM-koder via en robust API-ramme.

Datasættet var struktureret til at lette AI-træning i den virkelige verden af ​​sundhedsdokumentation, hvilket forbedrer modelkapaciteten til at forstå kliniske fortællinger.

Medicinsk datasæt licensering

Nøglestatistikker

750 sider / ~300 ambulante journaler

375 sider Pædiatri

375 sider OB-GYN

ICD-10 CM 2023 medicinske kodeannotationer

Projektets omfang

Datasættype Specialty Bind Metadata er optaget Noter
Medicinske noter Pediatrics 375 sider (~150 poster) Filnavn, speciale,
Dokumenttype, patientklasse (ambulant)
Inkluderer vurdering / plan sektioner
OB-GYN 375 sider (~150 poster)
Annotationer ICD-10 CM (2023) Fuldt datasæt Kodekortlægning via API Kodevalidering af kodere er uden for omfanget

Udfordringer

Projektet præsenterede flere kritiske udfordringer, som krævede omhyggelig planlægning og udførelse:

1. Speciale-specifik dataindsamling

Det var udfordrende at indkøbe ambulante journaler af høj kvalitet udelukkende fra pædiatri og OB-GYN specialer. Hvert dokument skulle inkludere vigtige kliniske sektioner som vurdering og plan for at understøtte nøjagtige annoteringer.

2. Omfattende PHI-afidentifikation

At sikre fuldstændig fjernelse af alle personligt identificerbare oplysninger (PII) og samtidig opretholde den medicinske kontekst var afgørende for overholdelse af HIPAA. Dette krævede detaljerede anmeldelser for at forhindre brud på privatlivets fred.

3. Kompleks ICD-10 CM annotation

Anvendelse af præcise ICD-10 CM (2023) koder via API var kompleks på grund af forskellige fortællestile og medicinsk terminologi. Konsistens og nøjagtighed i kodning var afgørende for at sikre pålidelig AI-modeltræning.

4. Metadata nøjagtighed og konsistens

Indsamling og validering af metadata såsom speciale, dokumenttype og patientklasse uden uoverensstemmelser var afgørende. Enhver uoverensstemmelse kan påvirke modeltræning og databrugbarhed.

5. Streng ambulant filtrering

At sikre, at alle journaler var strengt ambulante, tilføjede kompleksitet, da mange kliniske dokumenter kan indeholde blandede patientklasser eller ufuldstændige afsnit.

6. Kvalitetssikring og nøjagtighedsstandarder

Opfyldelse af tærsklen for 90 % nøjagtighed krævede gennemgange på flere niveauer for at eliminere dubletter, validere specialtilpasning og sikre afidentifikation - med foranstaltninger til omarbejdelse, når det var nødvendigt.

Løsning

Omfattende datalicensering og annotering

  • Licenserede pædiatriske og OB-GYN ambulante journaler
  • Sikret medtagelse af kritiske afsnit: Chefklage, Historik, ROS, Vurdering, Plan
  • API-baseret ICD-10 CM annotation (2023 version)

Afidentifikation og overholdelse

  • Erstattet PHI med pladsholdere (PERSON_NAME, DATE, LOCATION osv.)
  • Sikret overholdelse af sundhedsdatabeskyttelsesstandarder

Metadata-tagging

  • Opsamlede detaljerede metadata pr. fil:
    • File Name
    • Speciale (Pædiatri eller OB-GYN)
    • Dokumenttype (opfølgning, H&P, konsultation)
    • Patientklasse (kun ambulant)

Kvalitetskontrol

  • Strenge kvalitetsvurderinger med:
    • Ingen duplikerede poster
    • Specialitet match validering
    • Kun ambulant kontrol
    • Kontrol af metadatakonsistens
  • Udskiftning eller korrektion af poster under 90 % nøjagtighedsgrænse

Resultat

Shaip leverede et struktureret, kommenteret medicinsk notedatasæt, der gjorde det muligt for klienten at:

  • Træn AI-modeller til nøjagtig ICD-10 CM-kodeforudsigelse
  • Forbedre NLP-kapaciteter i virkelige sundhedsscenarier
  • Oprethold overholdelse af privatlivets fred og lovgivningsmæssige standarder
  • Skaler sundhedspleje AI-modeller på tværs af pædiatri og OB-GYN-domæner

Shaips strukturerede tilgang til datasætkurering og annotering oversteg vores forventninger. Nøjagtigheden, afidentifikationen og metadata-præcisionen har væsentligt styrket vores AI-modeltræningspipeline.

Gylden-5-stjernet