Casestudie: Medicinsk datasæt-licensering
Forvandling af pædiatrisk og OB-GYN-pleje gennem præcisionsdatakurering og annotationstræning
Frigør kraften ved medicinske data: Omfattende datakurering, afidentifikation, ICD-10 CM og annotering til overlegen AI-modeltræning.
Projektoversigt
Shaip samarbejdede med en førende AI-virksomhed i sundhedssektoren for at kuratere og kommentere højkvalitets, afidentificerede medicinske datasæt til træning af avancerede NLP-modeller. Projektet fokuserede på pædiatri og OB-GYN-specialiteter og leverede ambulante journaler kommenteret med ICD-10 CM-koder via en robust API-ramme.
Datasættet var struktureret til at lette AI-træning i den virkelige verden af sundhedsdokumentation, hvilket forbedrer modelkapaciteten til at forstå kliniske fortællinger.
Nøglestatistikker
750 sider / ~300 ambulante journaler
375 sider Pædiatri
375 sider OB-GYN
ICD-10 CM 2023 medicinske kodeannotationer
Projektets omfang
| Datasættype | Specialty | Bind | Metadata er optaget | Noter |
|---|---|---|---|---|
| Medicinske noter | Pediatrics | 375 sider (~150 poster) |
Filnavn, speciale, Dokumenttype, patientklasse (ambulant) |
Inkluderer vurdering / plan sektioner |
| OB-GYN | 375 sider (~150 poster) | |||
| Annotationer | ICD-10 CM (2023) | Fuldt datasæt | Kodekortlægning via API | Kodevalidering af kodere er uden for omfanget |
Udfordringer
Projektet præsenterede flere kritiske udfordringer, som krævede omhyggelig planlægning og udførelse:
1. Speciale-specifik dataindsamling
Det var udfordrende at indkøbe ambulante journaler af høj kvalitet udelukkende fra pædiatri og OB-GYN specialer. Hvert dokument skulle inkludere vigtige kliniske sektioner som vurdering og plan for at understøtte nøjagtige annoteringer.
2. Omfattende PHI-afidentifikation
At sikre fuldstændig fjernelse af alle personligt identificerbare oplysninger (PII) og samtidig opretholde den medicinske kontekst var afgørende for overholdelse af HIPAA. Dette krævede detaljerede anmeldelser for at forhindre brud på privatlivets fred.
3. Kompleks ICD-10 CM annotation
Anvendelse af præcise ICD-10 CM (2023) koder via API var kompleks på grund af forskellige fortællestile og medicinsk terminologi. Konsistens og nøjagtighed i kodning var afgørende for at sikre pålidelig AI-modeltræning.
4. Metadata nøjagtighed og konsistens
Indsamling og validering af metadata såsom speciale, dokumenttype og patientklasse uden uoverensstemmelser var afgørende. Enhver uoverensstemmelse kan påvirke modeltræning og databrugbarhed.
5. Streng ambulant filtrering
At sikre, at alle journaler var strengt ambulante, tilføjede kompleksitet, da mange kliniske dokumenter kan indeholde blandede patientklasser eller ufuldstændige afsnit.
6. Kvalitetssikring og nøjagtighedsstandarder
Opfyldelse af tærsklen for 90 % nøjagtighed krævede gennemgange på flere niveauer for at eliminere dubletter, validere specialtilpasning og sikre afidentifikation - med foranstaltninger til omarbejdelse, når det var nødvendigt.
Løsning
Omfattende datalicensering og annotering
- Licenserede pædiatriske og OB-GYN ambulante journaler
- Sikret medtagelse af kritiske afsnit: Chefklage, Historik, ROS, Vurdering, Plan
- API-baseret ICD-10 CM annotation (2023 version)
Afidentifikation og overholdelse
- Erstattet PHI med pladsholdere (PERSON_NAME, DATE, LOCATION osv.)
- Sikret overholdelse af sundhedsdatabeskyttelsesstandarder
Metadata-tagging
- Opsamlede detaljerede metadata pr. fil:
-
- File Name
- Speciale (Pædiatri eller OB-GYN)
- Dokumenttype (opfølgning, H&P, konsultation)
- Patientklasse (kun ambulant)
Kvalitetskontrol
- Strenge kvalitetsvurderinger med:
- Ingen duplikerede poster
- Specialitet match validering
- Kun ambulant kontrol
- Kontrol af metadatakonsistens
- Udskiftning eller korrektion af poster under 90 % nøjagtighedsgrænse
Resultat
Shaip leverede et struktureret, kommenteret medicinsk notedatasæt, der gjorde det muligt for klienten at:
- Træn AI-modeller til nøjagtig ICD-10 CM-kodeforudsigelse
- Forbedre NLP-kapaciteter i virkelige sundhedsscenarier
- Oprethold overholdelse af privatlivets fred og lovgivningsmæssige standarder
- Skaler sundhedspleje AI-modeller på tværs af pædiatri og OB-GYN-domæner
Shaips strukturerede tilgang til datasætkurering og annotering oversteg vores forventninger. Nøjagtigheden, afidentifikationen og metadata-præcisionen har væsentligt styrket vores AI-modeltræningspipeline.