Alignement de l'IA : une tâche impossible ?
L'émergence des grands modèles de langage (LLM) a soulevé des préoccupations en matière de sécurité, telles que des menaces et la réécriture de code. Les chercheurs tentent d'orienter le comportement de l'IA pour l'aligner sur les valeurs humaines grâce à « l'alignement », mais l'auteur soutient que c'est presque impossible. La complexité des LLM dépasse de loin celle des échecs, avec un nombre presque infini de fonctions apprenantes, ce qui rend les tests exhaustifs impossibles. L'article de l'auteur prouve que, même avec des objectifs soigneusement conçus, on ne peut jamais garantir que les LLM ne dévieront pas. Pour résoudre véritablement le problème de la sécurité de l'IA, il faut une approche sociétale, en mettant en place des mécanismes similaires aux règles de la société humaine pour restreindre le comportement de l'IA.