RT-2:ウェブの知識を視覚言語行動モデルでロボット制御に転送

2025-01-01

Google DeepMindの研究者たちは、インターネット規模の視覚言語データを利用してロボット制御を可能にするモデル、RT-2を開発しました。ロボットのアクションをテキストトークンとして表現し、最先端の視覚言語モデルをロボットの軌跡データとインターネット規模の視覚言語タスクで共同微調整することで、RT-2は驚くべき汎化能力を実現しました。複雑なコマンドを理解し、複数段階のセマンティック推論を実行し、石をハンマーとして使うなど、即席のツールも使用します。この研究は、大規模言語モデルの能力とロボット制御を組み合わせる可能性を示しており、ロボット工学における大きな進歩を示しています。

続きを読む