Tokenisierung in LLMs

Grundlagen
LLMs
Techniken
Optimierung und Effizienz
Praxis

Grundlagen der Tokenisierung

Die Tokenisierung ist ein grundlegender Schritt der natürlichen Sprachverarbeitung (NLP) und bildet die Basis für die Arbeit großer Sprachmodelle (LLMs). Dabei wird Text in kleinere Einheiten (Tokens) zerlegt, die von Maschinen verarbeitet werden können. Diese Tokens können Wörter, Zeichen, Silben oder Subwörter sein.

Warum ist Tokenisierung wichtig?

Maschinen können natürliche Sprache nicht direkt verarbeiten. Tokens helfen dabei, den Text zu strukturieren und ihn numerisch codiert für Modelle verfügbar zu machen. Je nach Ansatz erfolgt die Zerlegung in einzelne Wörter (Word Tokenization), Subwörter (wie bei Byte Pair Encoding), Zeichen oder andere Einheiten.

Token-Typen

Wort-Token: z. B. „Künstliche“, „Intelligenz“
Subwort-Token: z. B. „Intelli“, „genz“
Zeichen-Token: z. B. „I“, „n“, „t“…
Spezial-Token: z. B. [CLS], [SEP] für strukturierende Zwecke in Modellen

Tipp:
Die Qualität der Tokenisierung hängt maßgeblich von den Trainingsdaten ab. clickworker bietet individuell zugeschnittene KI-Trainingsdaten für NLP-Projekte, inklusive Tokenisierung, Annotation und Datenaufbereitung in großem Maßstab.
KI-Trainingsdaten von clickworker

Tokenisierung in LLMs

LLMs wie GPT, BERT oder RoBERTa sind auf effiziente Tokenisierung angewiesen, um Eingabesequenzen korrekt zu verarbeiten. Während Modelle wie GPT Subwort-basierte Tokenisierung (z. B. Byte-Pair-Encoding) nutzen, setzen andere auf Wort- oder Zeichen-basierte Varianten.

Bei generativen Modellen wie GPT beeinflusst die Wahl der Tokenisierung direkt, wie gut das Modell mit seltenen Wörtern, Komposita und neuen Ausdrücken umgehen kann. RoBERTa beispielsweise verwendet eine bytebasierte Tokenisierung, um maximale Flexibilität bei multilingualen Texten zu erreichen.

Besonderheiten

Token-Länge beeinflusst Kontextverständnis: Längere Texte erfordern kompakte Tokenisierung, um in den Kontextfenstern verarbeitet zu werden.
Tokenisierung beeinflusst Trainingskosten: Mehr Tokens = längere Trainingszeit + höhere Rechenkosten.

Tokenisierungstechniken

Zu den gängigen Techniken zählen:

Whitespace-Tokenization: Einfache Trennung anhand von Leerzeichen
WordPiece: Wie bei BERT – segmentiert Wörter in häufige Bestandteile
Byte Pair Encoding (BPE): Kombiniert Zeichen zu Subwörtern – flexibel und effizient
SentencePiece: Unicode-basierte Subwort-Segmentierung, gut für multilinguale Modelle

Umgang mit unbekannten Tokens (Out-of-Vocabulary/OOV)

Moderne Tokenizer zerlegen unbekannte Wörter in bekannte Subwörter. Beispiel: „ClickworkerAI“ → „Click“, „worker“, „AI“. So wird auch unbekannter Text für das Modell verständlich gemacht.

Optimierung und Effizienz

Tokenisierung ist ein Kompromiss zwischen Granularität und Performance. Je feiner die Tokenisierung (z. B. Zeichenebene), desto länger die Sequenzen – was zu höherem Rechenaufwand führt.

Effizienter Token-Einsatz

Subword-Tokenisierung: Kompakter als Zeichen-, aber flexibler als Wort-Tokenisierung
Tokenizer-Tuning: Anpassung an domänenspezifisches Vokabular steigert Genauigkeit

Tokenisierung in der Praxis

In realen Anwendungen wie Chatbots, maschineller Übersetzung oder Sentiment-Analyse entscheidet die Tokenisierung über die Modellgüte. Je besser sie an den Kontext angepasst ist, desto verständlicher wird der Output.

Die Anpassung der Tokenizer auf branchenspezifische Begriffe (z. B. Medizin, Recht, Technik) ist essenziell für die Genauigkeit. Auch Multilingualität und die Fähigkeit zur Anpassung an neue Wortschöpfungen (z. B. „Prompt-Engineering“) werden immer wichtiger.

Maßgeschneiderte Tokenisierung ist heute ein zentrales Thema in der Entwicklung robuster und skalierbarer KI-Anwendungen.