RT-2:赋予机器人网络知识的视觉-语言-行动模型
2025-01-01

Google DeepMind的研究人员开发了RT-2,一个能够将互联网规模的视觉语言数据转化为机器人控制的模型。通过将机器人动作表示为文本标记,并与互联网规模的视觉语言任务一起微调最先进的视觉语言模型,RT-2实现了显著的泛化能力。它能够理解复杂指令,执行多阶段语义推理,甚至使用临时工具,例如用石头当锤子。这项研究展示了将大型语言模型能力与机器人控制相结合的巨大潜力,标志着机器人技术领域的一大进步。
AI