AIがポケモン赤を制覇:小型RLエージェントの勝利

2025-03-05

チームは、1000万パラメータ未満のポリシー(DeepSeekV3より6万倍以上小さい)を用いた強化学習(RL)により、1996年のゲーム『ポケットモンスター赤』をクリアすることに成功しました。このプロジェクトはオープンソースであり、既存のポケモンリバースエンジニアリングツールとゲームエミュレータを活用しています。大規模な事前学習データセットを必要としない効率的なデータ収集のために、チームはRLを選択しました。これは、AIが複雑なゲームを克服する上でのブレークスルーであり、より困難な環境における強化学習のための新たな基準となります。

続きを読む
AI