Definition
Bei der Tokenisierung handelt es sich um den Prozess der Aufteilung von Text in kleinere Einheiten (Token) wie Wörter, Teilwörter oder Zeichen, die als Eingaben für Sprachmodelle dienen.
Zweck
Ziel ist es, Text in handhabbare Komponenten für Training und Inferenz in LLMs zu standardisieren.
Bedeutung
- Grundlegender Vorverarbeitungsschritt in NLP.
- Beeinflusst die Größe und Effizienz des Wortschatzes.
- Die Auswahl der Tokenisierung wirkt sich auf Genauigkeit und Leistung aus.
- Bezieht sich auf Einbettungen und Modelltraining.
Funktionsweise
- Definieren Sie das Tokenisierungsschema (Wort, Teilwort, Zeichen).
- Wenden Sie einen Tokenizer auf den Eingabetext an.
- Ordnen Sie Token numerischen IDs zu.
- Geben Sie Token zur Verarbeitung in das Modell ein.
- Konvertieren Sie Ausgabetoken zurück in Text.
Beispiele (Reale Welt)
- Byte Pair Encoding (BPE), das in GPT-Modellen verwendet wird.
- In BERT verwendetes WordPiece.
- SentencePiece wird im mehrsprachigen NLP verwendet.
Referenzen / Weiterführende Literatur
- Sennrich et al. „Neurale maschinelle Übersetzung seltener Wörter mit Unterworteinheiten.“ ACL.
- Google SentencePiece-Dokumentation.
- Jurafsky & Martin. Sprach- und Sprachverarbeitung.