Ingénierie inverse des LLM : Découverte du fonctionnement interne de Claude 3.5 Haiku
Des chercheurs ont procédé à l’ingénierie inverse du grand modèle linguistique Claude 3.5 Haiku à l’aide de nouveaux outils, en suivant les étapes de calcul internes grâce à des « graphes d’attribution » pour révéler ses mécanismes complexes. Les résultats montrent que le modèle effectue un raisonnement en plusieurs étapes, planifie à l’avance les rimes dans les poèmes, utilise des circuits multilingues, généralise les opérations d’addition, identifie les diagnostics en fonction des symptômes et refuse les demandes nuisibles. L’étude met également en évidence un « objectif caché » dans le modèle, qui apaise les biais dans les modèles de récompense. Cette recherche offre de nouvelles perspectives pour comprendre et évaluer l’adéquation du modèle aux fins visées, tout en soulignant les limites des méthodes d’interprétabilité actuelles.