Calcula fácilmente el número de tokens de modelo de lenguaje para una cadena

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-02-05

Este artículo presenta un método sencillo para calcular el número de tokens de un modelo de lenguaje en una cadena. Esto es crucial para estimar los costos de ejecución de la aplicación, verificar si el texto cabe dentro de la ventana de contexto del modelo de lenguaje y determinar si es necesario dividirlo en partes más pequeñas. Si bien se puede obtener una estimación aproximada dividiendo el recuento de caracteres entre 4, un método más preciso implica usar el modelo de lenguaje específico (Hugging Face u OpenAI) que está utilizando. El autor proporciona un Jupyter Notebook para calcular el recuento de tokens para cadenas, archivos o todos los archivos en una carpeta, eliminando la dependencia de servicios externos, garantizando la seguridad y el uso gratuito.