Datenanmerkung – NER

Named Entity Recognition (NER) Annotation für klinisches NLP

Ner Anmerkung

Gut kommentierte und nach Goldstandard zertifizierte klinische Textdaten zum Trainieren/Entwickeln von klinischem NLP zur Erstellung der nächsten Version der Healthcare API

Die Bedeutung der klinischen Verarbeitung natürlicher Sprache (NLP) wurde in den letzten Jahren zunehmend erkannt und hat zu transformativen Fortschritten geführt. Klinisches NLP ermöglicht es Computern, die umfassende Bedeutung zu verstehen, die hinter der schriftlichen Analyse eines Patienten durch einen Arzt steckt. Klinisches NLP kann vielfältige Anwendungsfälle haben, die von der Analyse der Bevölkerungsgesundheit über die Verbesserung der klinischen Dokumentation bis hin zur Spracherkennung und dem Abgleich klinischer Studien usw. reichen.

Um klinische NLP-Modelle zu entwickeln und zu trainieren, benötigen Sie genaue, unvoreingenommene und gut kommentierte Datensätze in riesigen Mengen. Goldstandard und verschiedene Daten tragen zur Verbesserung der Präzision und des Rückrufs von NLP-Engines bei.

Volume

Anzahl der kommentierten Dokumente
10
Anzahl der kommentierten Seiten
10 +
Projektdauer
< 1 Monat

Herausforderungen

Der Kunde freute sich darauf, seine NLP-Plattform (Natural Language Processing) mit neuen Entitätstypen zu trainieren und weiterzuentwickeln und auch die Beziehung zwischen verschiedenen Typen zu identifizieren. Darüber hinaus bewerteten sie Anbieter, die eine hohe Genauigkeit boten, die örtlichen Gesetze einhielten und über das erforderliche medizinische Wissen verfügten, um einen großen Datensatz zu kommentieren.

Die Aufgabe bestand darin, bis zu 20,000 gekennzeichnete Datensätze zu kennzeichnen und zu kommentieren, darunter bis zu 15,000 gekennzeichnete Datensätze aus stationären und ambulanten elektronischen Gesundheitsakten (EHR) und bis zu 5,000 gekennzeichnete Datensätze aus transkribierten medizinischen Diktaten, gleichmäßig verteilt auf (1) geografische Herkunft und ( 2) verfügbare medizinische Fachgebiete.

Um die Herausforderungen zusammenzufassen:

  • Organisieren Sie heterogene klinische Daten, um die NLP-Plattform zu trainieren
  • Identifizieren Sie die Beziehungen zwischen verschiedenen Einheiten, um wichtige Informationen abzuleiten
  • Fähigkeit und Fachwissen, eine breite Palette komplexer klinischer Dokumente zu kennzeichnen/zu kommentieren
  • Behalten Sie die Kosten unter Kontrolle, um eine große Datenmenge zu kennzeichnen/annotieren, um klinisches NLP innerhalb des festgelegten Zeitrahmens zu trainieren
  • Kommentieren Sie Entitäten im klinischen Datensatz, der zu 75 % aus EHR- und zu 25 % aus Diktatdatensätzen besteht.
  • Anonymisierung der Daten zum Zeitpunkt der Lieferung

Weitere Herausforderungen beim Verständnis natürlicher Sprache

Mehrdeutigkeit

Wörter sind einzigartig, können jedoch je nach Kontext unterschiedliche Bedeutungen haben, was zu Mehrdeutigkeiten auf lexikalischer, syntaktischer und semantischer Ebene führt.

Synonymie

Wir können dieselbe Idee mit verschiedenen Begriffen ausdrücken, die auch Synonyme sind: groß und groß bedeuten bei der Beschreibung eines Objekts dasselbe.

Koreferenz

Der Prozess, alle Ausdrücke zu finden, die sich auf dieselbe Entität in einem Text beziehen, wird als Koreferenzauflösung bezeichnet.

Persönlichkeit, Absicht, Emotionen

Abhängig von der Persönlichkeit des Sprechers können seine Absichten und Gefühle für dieselbe Idee unterschiedlich ausgedrückt werden.

Lösung

Eine große Menge an medizinischen Daten und Wissen ist in Form medizinischer Dokumente verfügbar, jedoch überwiegend in einem unstrukturierten Format. Mit Medical Entity Annotation / Named Entity Recognition (NER) Annotation konnte Shaip unstrukturierte Daten in ein strukturiertes Format umwandeln, indem er nützliche Informationen aus verschiedenen Arten von klinischen Aufzeichnungen mit Anmerkungen versehen hat. Sobald die Entitäten identifiziert waren, wurde auch die Beziehung zwischen ihnen kartiert, um kritische Informationen zu identifizieren.

Arbeitsumfang: Anmerkung zur Erwähnung von Gesundheitseinrichtungen

9 Entitätstypen

  • Medizinische Zustand
  • Medizinische Prozedur
  • Anatomische Struktur
  • Medizin
  • Medizinisches Gerät
  • Körpermessung
  • Substance Abuse
  • Labordaten
  • Körperfunktion

17 Modifikatoren

  • Medikamentenmodifikatoren: Stärke, Einheit, Dosis, Von, Häufigkeit, Route, Dauer, Status
  • Modifikatoren für Körpermaße: Wert, Einheit, Ergebnis
  • Verfahrensmodifikatoren: Methode
    • Labordaten-Modifikator: Laborwert, Laboreinheit, Laborergebnis
  • Schwere
  • Verfahrensergebnis

27 Beziehungen und Patientenstatus

Ergebnis

Die kommentierten Daten würden zur Entwicklung und Schulung der klinischen NLP-Plattform des Kunden verwendet, die in die nächste Version seiner Healthcare-API integriert würde. Die Vorteile, die der Kunde daraus zog, waren:

  • Die beschrifteten/annotierten Daten entsprachen den Standardrichtlinien des Kunden für Datenanmerkungen.
  • Heterogene Datensätze wurden verwendet, um die NLP-Plattform für eine höhere Genauigkeit zu trainieren.
  • Beziehungen zwischen verschiedenen Einheiten, z. B. anatomische Körperstruktur <> Medizinprodukt, medizinischer Zustand <> medizinisches Gerät, medizinischer Zustand <> Medikament, medizinischer Zustand <> Verfahren wurden identifiziert, um kritische medizinische Informationen abzuleiten.
  • Der breite Datensatz, der beschriftet/annotiert war, wurde zum Zeitpunkt der Bereitstellung ebenfalls deidentifiziert.

Unsere Zusammenarbeit mit Shaip hat unser Projekt im Bereich Ambient Technology und Conversational AI im Gesundheitswesen erheblich vorangebracht. Ihre Fachkenntnisse in der Erstellung und Transkription synthetischer Gesundheitsdialoge bildeten eine solide Grundlage und zeigten das Potenzial synthetischer Daten bei der Bewältigung regulatorischer Herausforderungen. Mit Shaip haben wir diese Hürden überwunden und sind nun der Verwirklichung unserer Vision intuitiver Gesundheitslösungen einen Schritt näher gekommen.

Golden-5-Sterne

Beschleunigen Sie Ihre Gesprächs-KI
Anwendungsentwicklung zu 100 %