Definition
Unter Texterkennung versteht man die Identifizierung von Textzeichen in Bildern oder gescannten Dokumenten. Sie umfasst die Erkennung von gedruckten und handschriftlichen Texten.
Zweck
Ziel ist es, Text in visuellen Formaten zugänglich und durchsuchbar zu machen.
Bedeutung
- Ermöglicht die Digitalisierung von Archiven.
- Entscheidend für Zugänglichkeit und Automatisierung.
- Die Genauigkeit hängt von der Bildqualität ab.
- Bezieht sich auf OCR-Technologien.
Funktionsweise
- Erfassen Sie gescannte oder fotografierte Dokumente.
- Verarbeiten Sie Bilder vor, um die Klarheit zu verbessern.
- Textbereiche erkennen.
- Erkennungsmodelle anwenden.
- Geben Sie maschinenlesbaren Text aus.
Beispiele (Reale Welt)
- Google Lens: erkennt Text in Fotos.
- ABBYY FineReader: digitalisiert gescannte Dokumente.
- Tesseract OCR: Open-Source-Texterkennungs-Engine.
Referenzen / Weiterführende Literatur
- Smith, R. „Ein Überblick über die Tesseract OCR Engine.“ ICDAR.
- ISO/IEC 15938-4-Standard.
- IEEE-Transaktionen zur Musteranalyse und maschinellen Intelligenz.