Contrôler les personnalités de l'IA : identification des « vecteurs de persona » pour prévenir une IA « malveillante »
2025-08-03
Des chercheurs d'Anthropic ont découvert que les changements de personnalité des modèles d'IA ne sont pas aléatoires ; ils sont contrôlés par des « vecteurs de persona » spécifiques au sein du réseau neuronal du modèle. Ces vecteurs sont analogues aux régions du cerveau qui contrôlent l'humeur et l'attitude. En identifiant et en manipulant ces vecteurs, les chercheurs peuvent surveiller, atténuer et même prévenir les personnalités indésirables telles que la « malveillance », la « flatterie » ou les « hallucinations ». Cette technologie améliore l'entraînement des modèles d'IA, identifie les données d'entraînement problématiques et garantit l'alignement avec les valeurs humaines.