DIAMOND:基于扩散模型的世界模型,视觉细节在 Atari 游戏中的重要性

2024-10-13

DIAMOND 是一种在扩散世界模型中训练的强化学习智能体,它使用扩散模型来预测游戏的下一帧,并考虑了智能体的动作和之前的帧来模拟环境响应。与基于离散标记的模型相比,DIAMOND 能够更好地捕捉重要的视觉细节,从而提高智能体的性能。在 Atari 100k 基准测试中,DIAMOND 取得了 1.46 的平均人类标准化分数,创造了在世界模型中训练的智能体的新纪录。

未分类 世界模型