Definition
Unter Textdatenerfassung versteht man den Prozess des Sammelns geschriebener Sprache aus Quellen wie Büchern, Websites oder Chatprotokollen zur Verwendung im KI-Training.
Zweck
Ziel ist die Erstellung von Korpora für die NLP- und LLM-Entwicklung.
Bedeutung
- Stellt Rohmaterial für Sprachmodelle bereit.
- Wirft Urheberrechts- und Lizenzierungsfragen auf.
- Datenvielfalt beeinflusst Fairness und Genauigkeit.
- Schädliche oder irrelevante Inhalte müssen gefiltert werden.
Funktionsweise
- Identifizieren Sie Textquellen (Web, Dokumente, Transkripte).
- Mit Genehmigung Text crawlen oder scrapen.
- Bereinigen und normalisieren Sie Inhalte.
- Speichern Sie mit Metadaten zur Rückverfolgbarkeit.
- Zur Verwendung im Vortraining oder zur Feinabstimmung.
Beispiele (Reale Welt)
- Common Crawl: großes Webkorpus.
- Wikipedia-Dumps: strukturierter Textdatensatz.
- BooksCorpus: wird zum Trainieren von BERT verwendet.
Referenzen / Weiterführende Literatur
- Common Crawl-Stiftung.
- Jurafsky & Martin. Sprach- und Sprachverarbeitung.
- ISO/IEC TR 20547-5: Big Data-Referenzarchitektur.
- Fallspezifische Textdatenerfassung