Fallstudie: Lizenzierung medizinischer Datensätze

Transformation der Kinder- und Gynäkologieversorgung durch präzise Datenkuratierung und Annotationsschulung

Das Potenzial medizinischer Daten freisetzen: Umfassende Datenkuratierung, De-Identifizierung, ICD-10 CM und Annotation für ein überlegenes KI-Modelltraining.

Lizenzierung medizinischer Datensätze

Projektübersicht

Shaip kooperierte mit einem führenden KI-Unternehmen im Gesundheitswesen, um hochwertige, anonymisierte medizinische Datensätze für das Training fortschrittlicher NLP-Modelle zu kuratieren und zu kommentieren. Das Projekt konzentrierte sich auf die Fachrichtungen Pädiatrie und Gynäkologie und lieferte ambulante Patientenakten, die mit ICD-10-CM-Codes kommentiert wurden, über ein robustes API-Framework.

Der Datensatz wurde so strukturiert, dass das KI-Training anhand realer Gesundheitsdokumentation erleichtert wird und die Modellfähigkeit beim Verständnis klinischer Berichte verbessert wird.

Lizenzierung medizinischer Datensätze

Schlüsselstats

750 Seiten / ~ 300 ambulante Aufzeichnungen

375 Seiten Pädiatrie
375 Seiten Gynäkologie und Geburtshilfe
ICD-10 CM 2023 medizinische Codeanmerkungen

Projektumfang

DatensatztypSpezialprodukteVolumeErfasste MetadatenNotizen
Medizinische NotizenPädiatrie375 Seiten
(~150 Datensätze)
Dateiname, Spezialität,
Dokumentart, Patientenklasse (ambulant)
Enthält Bewertungs-/Planabschnitte
Frauenarzt375 Seiten
(~150 Datensätze)
AnmerkungenICD-10 CM (2023)Vollständiger DatensatzCode Mapping über APIDie Codevalidierung durch Programmierer liegt außerhalb des Geltungsbereichs

Probleme

Das Projekt war mit mehreren kritischen Herausforderungen verbunden, die eine sorgfältige Planung und Umsetzung erforderten:

1. Fachspezifische Datenerhebung

Die Beschaffung hochwertiger ambulanter Patientenakten ausschließlich aus den Bereichen Pädiatrie und Gynäkologie war eine Herausforderung. Jedes Dokument musste wichtige klinische Abschnitte wie „Beurteilung“ und „Plan“ enthalten, um präzise Anmerkungen zu ermöglichen.

2. Umfassende PHI-Deidentifizierung

Die vollständige Entfernung aller personenbezogenen Daten (PII) unter Beibehaltung des medizinischen Kontexts war für die Einhaltung des HIPAA unerlässlich. Dies erforderte detaillierte Überprüfungen, um Datenschutzverletzungen zu vermeiden.

3. Komplexe ICD-10 CM-Annotation

Die Anwendung präziser ICD-10 CM (2023)-Codes über die API war aufgrund unterschiedlicher Erzählstile und medizinischer Terminologie komplex. Konsistenz und Genauigkeit bei der Kodierung waren entscheidend, um ein zuverlässiges Training des KI-Modells zu gewährleisten.

4. Genauigkeit und Konsistenz der Metadaten

Die lückenlose Erfassung und Validierung von Metadaten wie Fachgebiet, Dokumenttyp und Patientenklasse war entscheidend. Jede Abweichung könnte das Modelltraining und die Nutzbarkeit der Daten beeinträchtigen.

5. Strenge ambulante Filterung

Die Sicherstellung, dass alle Aufzeichnungen ausschließlich ambulanter Patienten waren, erhöhte die Komplexität, da viele klinische Dokumente gemischte Patientenklassen oder unvollständige Abschnitte enthalten können.

6. Qualitätssicherung und Genauigkeitsstandards

Um die Genauigkeitsschwelle von 90 % zu erreichen, waren mehrstufige Überprüfungen erforderlich, um Duplikate zu eliminieren, die Fachausrichtung zu validieren und die De-Identifizierung sicherzustellen – mit Bestimmungen für Nacharbeiten bei Bedarf.

Die Lösung

Umfassende Datenlizenzierung und -annotation

  • Lizenzierte ambulante Aufzeichnungen für Kinderärzte und Gynäkologen
  • Sicherstellung der Einbeziehung kritischer Abschnitte: Hauptbeschwerde, Verlauf, ROS, Beurteilung, Plan
  • API-basierte ICD-10 CM-Annotation (Version 2023)

De-Identifizierung und Compliance

  • PHI durch Platzhalter ersetzt (PERSONENNAME, DATUM, ORT usw.)
  • Gewährleistung der Einhaltung der Datenschutzstandards im Gesundheitswesen

Metadaten-Tagging

  • Erfasste detaillierte Metadaten pro Datei:
    • Dateiname
    • Fachgebiet (Pädiatrie oder Gynäkologie)
    • Dokumenttyp (Follow-up, H&P, Konsultation)
    • Patientenklasse (nur ambulant)

Qualitätskontrolle

  • Strenge Qualitätsbewertungen mit:

    • Keine doppelten Datensätze
    • Validierung spezieller Übereinstimmungen
    • Ambulante Untersuchung
    • Metadaten-Konsistenzprüfung
  • Ersetzen oder Korrigieren von Datensätzen mit einer Genauigkeitsschwelle von unter 90 %

Ergebnis

Shaip lieferte einen strukturierten, kommentierten Datensatz mit medizinischen Notizen, der es dem Kunden ermöglichte:

  • Trainieren Sie KI-Modelle für die genaue Vorhersage des ICD-10 CM-Codes
  • Verbessern Sie NLP-Fähigkeiten in realen Szenarien des Gesundheitswesens
  • Einhaltung von Datenschutz- und Regulierungsstandards
  • Skalieren Sie KI-Modelle im Gesundheitswesen in den Bereichen Pädiatrie und Gynäkologie

Shaips strukturierter Ansatz zur Datensatzkuratierung und -annotation hat unsere Erwartungen übertroffen. Die Genauigkeit, De-Identifizierung und Metadatenpräzision haben unsere KI-Modell-Trainingspipeline deutlich gestärkt.

Golden-5-Sterne