Verbesserung prädiktiver Modelle im Gesundheitswesen mit generativer KI
Eine Fallstudie zur Erkennung von Lungenentzündungen und zur Stadienbestimmung von Krebs
Projektübersicht
Im sich rasch weiterentwickelnden Bereich des Gesundheitswesens stellt der Einsatz generativer KI, insbesondere Large Language Models (LLMs), zur Vorhersage von Krankheitszuständen anhand klinischer Berichte einen erheblichen Fortschritt dar. Der Kunde, ein Vorreiter in der Gesundheitsanalytik, machte sich daran, seine Modelle zur Vorhersage von Krankheitszuständen zu verfeinern. Durch die Nutzung der Open-Source-Datenbank MIMIC CXR und die Einbindung generativer KI-Vorhersagen für die Erstanalyse, gefolgt von einer manuellen Validierung mit Label Studio, bestand das Ziel darin, die Modellgenauigkeit und -zuverlässigkeit für die Analyse klinischer Berichte, insbesondere radiologischer Berichte, zu verbessern.
Probleme
Die Integration generativer KI-Vorhersagen in Arbeitsabläufe im Gesundheitswesen war mit zahlreichen Herausforderungen verbunden:
Um den Zugriff auf hochwertige medizinische Open-Source-Datensätze wie MIMIC-CXR zu sichern, war ein strenger Akkreditierungsprozess erforderlich, der die Einhaltung von Datenschutz- und ethischen Standards gewährleistete.
Die ersten Ergebnisse generativer KI-Modelle wiesen gelegentlich Ungenauigkeiten bei der Vorhersage des Krankheitszustands auf, sodass zur Erhöhung der Präzision manuelle Überprüfungen erforderlich waren.
Die genaue Klassifizierung von Krankheitszuständen anhand der differenzierten Sprache klinischer Berichte stellte insbesondere beim Einsatz generativer KI eine erhebliche Hürde dar.
Um qualitativ hochwertige und genaue Anmerkungen im Tool „Label Studio“ sicherzustellen, waren Fachkenntnisse und ein Verständnis medizinischer Krankheitszustände erforderlich.
Die Lösung
Um diese Herausforderungen zu bewältigen, setzte Shaip eine umfassende Strategie ein:
- Optimierte Anmeldeinformationen: Das Team bewältigte den Akkreditierungsprozess für den MIMIC-CXR-Zugriff schnell und bewies dabei Effizienz und Engagement für ethische Forschungspraktiken.
- Leitlinienentwicklung: Entwickelte aufschlussreiche Richtlinien für manuelle Validierer, um Konsistenz und Qualität bei der Kommentierung von LLM-Vorhersagen sicherzustellen.
- Expertenkommentare zu KI-Prognosen: Mithilfe von Label Studio wurde eine sorgfältige manuelle Validierung und Korrektur der LLM-Vorhersagen vorgenommen, unterstützt durch medizinisches Fachwissen.
- Leistungskennzahlen: Durch detaillierte Analysen berechnete Shaip die Leistungskennzahlen von LLM wie Übereinstimmung, Präzision, Rückruf und F1-Score und ermöglichte so eine kontinuierliche Verbesserung.
Ergebnis
- Verbesserte Genauigkeit bei der Vorhersage von Krankheitszuständen anhand von Röntgenberichten.
- Entwicklungsprojekt einer Hochwertige Grundwahrheit Datensatz für die zukünftige Produktentwicklung und Auswertung generativer KI-Vorhersagen.
- Verbessertes Verständnis der Krankheitszustandsidentifizierung und ermöglicht so zuverlässigere Vorhersagen.
Anwendungsfall 1: Validierung eines Machine-Learning-Modells
Szenario: Verbesserung der Vorhersagegenauigkeit von Lungenentzündungen mit generativer KI In diesem Fall durchsuchte ein generatives KI-Modell Röntgenaufnahmen des Brustkorbs, um Anzeichen einer Lungenentzündung zu erkennen. Ein Bericht mit der Feststellung „Erhöhte Opazität im rechten Unterlappen, was auf einen Infektionsprozess hindeutet“ veranlasste die KI aufgrund der mehrdeutigen Formulierung des Berichts zunächst zu einer Einstufung als „Unsicher“.
Validierungsprozess:
- Ein medizinischer Experte untersuchte den Bericht in Label Studio und konzentrierte sich auf den von der KI hervorgehobenen Text.
- Durch die Bewertung des klinischen Kontexts und die Anwendung radiologischer Erkenntnisse stufte der Experte den Bericht als definitiv „positiv“ für eine Lungenentzündung ein.
- Diese Expertenkorrektur wurde wieder in das KI-Modell integriert und erleichterte dessen kontinuierliches Lernen und Verfeinerung.
Ergebnisse:
- Verbesserte Modellgenauigkeit
- Verbesserung der Präzision und des Rückrufs von Leistungsmetriken
Anwendungsfall 2: Ground Truth-Datensatz generieren
Szenario: Erstellen eines Benchmark-Datensatzes für die TNM-Krebs-Stadienbestimmung mit generativer KI
Mit dem Ziel, die Produktentwicklung im Bereich Krebsprogression voranzutreiben, wollte der Kunde einen umfassenden Ground-Truth-Datensatz zusammenstellen. Dieser Datensatz würde als Benchmark für das Training und die Bewertung neuer KI-Modelle dienen, um die TNM-Krebsstadien anhand klinischer Berichte genau vorherzusagen.
Prozess der Datensatzgenerierung:
- Es wurde ein breites Spektrum krebsbezogener Berichte gesammelt, darunter pathologische Befunde und diagnostische Übersichten.
- Das generative KI-Modell lieferte für jeden Bericht erste TNM-Staging-Vorhersagen und nutzte dabei die erlernten Muster und Kenntnisse.
- Mediziner überprüften die Genauigkeit dieser KI-generierten Vorhersagen, korrigierten Fehler und ergänzten Informationen bei unvollständigen oder falschen KI-Vorhersagen.
Ergebnisse:
- Erstellung eines hochwertigen Ground-Truth-Datensatzes.
- Foundation for Future Products zur Verfeinerung von Modellen der nächsten Generation zur Krebsdiagnose und -stadienbestimmung.
Die Zusammenarbeit mit Shaip hat unseren Ansatz zur Krankheitsvorhersage revolutioniert. Die Präzision und Zuverlässigkeit unserer Modelle haben sich durch die von Shaips Fachexperten vorgenommenen Anmerkungen deutlich verbessert. Dank ihres sorgfältigen Validierungsprozesses.