AI击败口袋妖怪红:小型RL代理的胜利
2025-03-05
一个团队利用强化学习(RL)训练了一个参数小于1000万的小型代理,成功击败了1996年的游戏《口袋妖怪红》。这比之前的DeepSeekV3模型小6万多倍。该项目开源,并利用了现有的口袋妖怪反向工程工具和游戏模拟器。团队选择RL是因为其数据收集的效率,无需大型预训练数据集。这是一个AI在复杂游戏中取得突破的案例,为强化学习在更复杂游戏中的应用提供了新的基准。
阅读更多
AI
口袋妖怪