Des politiques adversariales battent les IA de Go surhumaines
2024-12-24

Des chercheurs ont atteint un taux de victoire supérieur à 97 % contre KataGo, un système d'IA de Go de pointe, en entraînant des politiques adversariales. Ces adversaires n'ont pas gagné en jouant bien au Go, mais en trompant KataGo pour qu'il commette des erreurs critiques. L'attaque s'est transférée sans réentraînement à d'autres IA de Go surhumaines et était suffisamment simple pour que des experts humains puissent la reproduire sans assistance algorithmique. La vulnérabilité a persisté même après que KataGo a été entraîné de manière adversariale à se défendre contre elle, soulignant des modes de défaillance surprenants même dans les systèmes d'IA surhumains.