文字列の言語モデルトークン数を簡単に計算する
2025-02-05

この記事では、文字列内の言語モデルトークン数を計算する簡単な方法を紹介します。これは、アプリケーションの実行コストの推定、テキストが使用している言語モデルのコンテキストウィンドウに適合するかどうか、チャンク処理が必要かどうかを判断する上で非常に重要です。文字数を4で割ることで大まかな推定値を得ることもできますが、より正確な方法は、実際に使用している言語モデル(Hugging FaceまたはOpenAIモデル)を使用することです。著者は、文字列、ファイル、またはフォルダ内のすべてのファイルのトークン数を計算するためのJupyter Notebookを提供しており、外部サービスへの依存を排除し、安全で無料の使用を可能にしています。
続きを読む
開発
トークンカウント