Políticas Adversarias Derrotan a las IA de Go Superhumanas
2024-12-24
Los investigadores lograron una tasa de victorias superior al 97% contra KataGo, un sistema de IA de Go de última generación, entrenando políticas adversarias. Estos adversarios no ganaron jugando bien al Go, sino engañando a KataGo para que cometiera errores críticos. El ataque se transfirió sin entrenamiento a otras IA de Go superhumanas y fue lo suficientemente simple como para que los expertos humanos lo replicaran sin asistencia algorítmica. La vulnerabilidad persistió incluso después de que KataGo fue entrenado adversarialmente para defenderse contra ella, destacando modos de falla sorprendentes incluso en sistemas de IA superhumanos.