L'entropie des sorties des grands modèles de langage : une perspective théorique de l'information

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-01-13

Cet article explore la sortie des grands modèles de langage (LLM comme ChatGPT) d'un point de vue théorique de l'information. L'auteur calcule l'entropie de chaque jeton de sortie pour mesurer la certitude du modèle lors de la prédiction du jeton suivant. Les expériences montrent une faible entropie (forte certitude) à la fin des phrases ou des fragments de mots, et une forte entropie (plus d'incertitude) dans les déclarations descriptives. Une comparaison des types de jetons à faible versus forte entropie révèle que la faible entropie est souvent corrélée à des déclarations factuelles (contenant des noms propres), tandis que la forte entropie est corrélée à des déclarations descriptives. Un exemple en tamoul est utilisé pour une illustration supplémentaire, soulignant l'importance de discerner le vrai du faux.