Outil Open Source révélant le fonctionnement interne des grands modèles de langage
2025-05-29
Anthropic a publié en open source un nouvel outil pour retracer les « processus de pensée » des grands modèles de langage. Cet outil génère des graphes d'attribution, visualisant les étapes internes qu'un modèle effectue pour parvenir à une décision. Les utilisateurs peuvent explorer interactivement ces graphes sur la plateforme Neuronpedia, en étudiant des comportements tels que le raisonnement en plusieurs étapes et les représentations multilingues. Cette publication vise à accélérer la recherche sur l'interprétabilité des grands modèles de langage, comblant le fossé entre les progrès des capacités de l'IA et notre compréhension de leur fonctionnement interne.