Definition
Named Entity Recognition (NER) ist eine NLP-Aufgabe, die Entitäten in Texten identifiziert und klassifiziert, beispielsweise Personen, Organisationen, Orte, Daten oder Produkte.
Zweck
Ziel ist die Strukturierung unstrukturierten Textes durch die Extraktion wichtiger Entitäten. Es unterstützt die Suche, die Informationsextraktion und den Aufbau von Wissensgraphen.
Bedeutung
- Grundlegend für Informationsabruf und NLP-Pipelines.
- Fehler werden auf nachgelagerte Anwendungen übertragen.
- Domänenspezifische NER (z. B. Medizin, Recht) erfordern benutzerdefinierte Datensätze.
- Bezieht sich auf Aufgaben wie Entitätsverknüpfung und Beziehungsextraktion.
Funktionsweise
- Text sammeln und vorverarbeiten.
- Kommentieren Sie Datensätze mit Entitätskategorien.
- Trainieren Sie Modelle anhand beschrifteter Beispiele (CRFs, Transformatoren).
- Entitäten in ungesehenem Text vorhersagen.
- Überprüfen Sie die Genauigkeit mit Testdaten.
Beispiele (Reale Welt)
- spaCy: Open-Source-NLP-Bibliothek mit integriertem NER.
- Stanford CoreNLP: bietet Tools zur Erkennung benannter Entitäten.
- Finanzielle NLP: Extrahiert Firmennamen aus Berichten.
Referenzen / Weiterführende Literatur
- Jurafsky & Martin. Sprach- und Sprachverarbeitung.
- Lample et al. „Neuronale Architekturen für die Erkennung benannter Entitäten.“ ACL.
- Transformers NER-Modelle mit umarmendem Gesicht.
- Was ist Named Entity Recognition (NER)