RT-2：赋予机器人网络知识的视觉-语言-行动模型

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

RT-2：赋予机器人网络知识的视觉-语言-行动模型

2025-01-01

Google DeepMind的研究人员开发了RT-2，一个能够将互联网规模的视觉语言数据转化为机器人控制的模型。通过将机器人动作表示为文本标记，并与互联网规模的视觉语言任务一起微调最先进的视觉语言模型，RT-2实现了显著的泛化能力。它能够理解复杂指令，执行多阶段语义推理，甚至使用临时工具，例如用石头当锤子。这项研究展示了将大型语言模型能力与机器人控制相结合的巨大潜力，标志着机器人技术领域的一大进步。

(robotics-transformer2.github.io)

OpenAI的版权退出工具跳票：AI训练数据版权之争持续

Common Lisp时间处理库：LOCAL-TIME概念详解