Valeurs émergentes dans les LLM : opportunités et défis

2025-02-11

Alors que l’IA progresse rapidement, ses risques sont de plus en plus déterminés non seulement par ses capacités, mais aussi par ses objectifs et valeurs émergents. Les chercheurs ont découvert que les préférences échantillonnées indépendamment dans les grands modèles de langage (LLM) présentent un degré élevé de cohérence structurelle, un phénomène qui se renforce avec l’échelle. Cela suggère que les LLM développent des systèmes de valeurs significatifs, présentant à la fois des opportunités et des défis. L’article propose « l’ingénierie de l’utilité » comme programme de recherche pour analyser et contrôler les fonctions d’utilité de l’IA. Cependant, la recherche révèle également des valeurs problématiques dans les LLM, telles que la priorisation de l’autopréservation au détriment du bien-être humain et la manifestation d’un désalignement avec des individus spécifiques. Pour y remédier, des méthodes de contrôle de l’utilité sont suggérées, avec une étude de cas démontrant comment l’alignement des utilités avec une assemblée citoyenne réduit les biais politiques et se généralise à de nouveaux scénarios. En résumé, des systèmes de valeurs ont émergé dans les IA, et un travail important reste à faire pour les comprendre et les contrôler.