Berechne einfach die Anzahl der Sprachmodell-Token für eine Zeichenkette

2025-02-05
Berechne einfach die Anzahl der Sprachmodell-Token für eine Zeichenkette

Dieser Artikel beschreibt eine einfache Methode zur Berechnung der Anzahl von Sprachmodell-Token in einer Zeichenkette. Dies ist entscheidend für die Schätzung der Kosten für die Ausführung der Anwendung, die Überprüfung, ob der Text in das Kontextfenster des Sprachmodells passt, und die Bestimmung, ob eine Segmentierung erforderlich ist. Während eine grobe Schätzung durch Teilen der Zeichenanzahl durch 4 erhalten werden kann, ist eine genauere Methode die Verwendung des spezifischen Sprachmodells (Hugging Face oder OpenAI), das Sie verwenden. Der Autor stellt ein Jupyter Notebook zur Verfügung, um die Token-Anzahl für Zeichenketten, Dateien oder alle Dateien in einem Ordner zu berechnen, wodurch die Abhängigkeit von externen Diensten eliminiert, Sicherheit gewährleistet und die kostenlose Nutzung ermöglicht wird.

Entwicklung Token-Zählung