Políticas Adversárias Derrotam IAs de Go Superhumanas
2024-12-24
Pesquisadores alcançaram uma taxa de vitória superior a 97% contra o KataGo, um sistema de IA de Go de última geração, treinando políticas adversárias. Esses adversários não venceram jogando Go bem, mas enganando o KataGo para que cometesse erros críticos. O ataque foi transferido sem treinamento para outras IAs de Go super-humanas e foi simples o suficiente para especialistas humanos replicarem sem assistência algorítmica. A vulnerabilidade persistiu mesmo depois que o KataGo foi treinado adversarialmente para se defender contra ela, destacando modos de falha surpreendentes mesmo em sistemas de IA super-humanos.