Calcula fácilmente el número de tokens de modelo de lenguaje para una cadena
Este artículo presenta un método sencillo para calcular el número de tokens de un modelo de lenguaje en una cadena. Esto es crucial para estimar los costos de ejecución de la aplicación, verificar si el texto cabe dentro de la ventana de contexto del modelo de lenguaje y determinar si es necesario dividirlo en partes más pequeñas. Si bien se puede obtener una estimación aproximada dividiendo el recuento de caracteres entre 4, un método más preciso implica usar el modelo de lenguaje específico (Hugging Face u OpenAI) que está utilizando. El autor proporciona un Jupyter Notebook para calcular el recuento de tokens para cadenas, archivos o todos los archivos en una carpeta, eliminando la dependencia de servicios externos, garantizando la seguridad y el uso gratuito.