적대적 정책이 초인적인 바둑 AI를 꺾다

2024-12-24

연구자들은 최첨단 바둑 AI인 KataGo에 대해 적대적 정책을 훈련함으로써 97%가 넘는 승률을 달성했습니다. 이러한 적대자들은 바둑을 잘 두는 것이 아니라 KataGo가 심각한 실수를 하도록 함으로써 승리했습니다. 이 공격은 다른 초인적인 바둑 AI에도 제로샷으로 전이되었고, 인간 전문가가 알고리즘의 도움 없이 재현할 수 있을 정도로 간단했습니다. 이 취약점은 KataGo가 적대적으로 훈련되어 방어된 후에도 지속되었으며, 초인적인 AI 시스템조차 놀라운 실패 모드를 가질 수 있음을 보여줍니다.