La Entropía de la Salida de los Modelos de Lenguaje Grandes: Una Perspectiva de la Teoría de la Información

2025-01-13

Esta publicación explora la salida de los modelos de lenguaje grandes (LLM como ChatGPT) desde una perspectiva de la teoría de la información. El autor calcula la entropia de cada token de salida para medir la certeza del modelo al predecir el siguiente token. Los experimentos muestran una entropía más baja (mayor certeza) al final de las oraciones o fragmentos de palabras, y una entropia más alta (más incertidumbre) en las declaraciones descriptivas. Una comparación de los tipos de tokens en entropía baja versus alta revela que la entropía baja suele correlacionarse con declaraciones fácticas (que contienen nombres propios), mientras que la entropía alta se correlaciona con declaraciones descriptivas. Se utiliza un ejemplo en tamil para una ilustración adicional, enfatizando la importancia de discernir la verdad de la falsedad.