RT-2: Transferindo conhecimento da Web para controle robótico com modelos Visão-Linguagem-Ação

2025-01-01

Pesquisadores do Google DeepMind desenvolveram o RT-2, um modelo que utiliza dados de visão e linguagem em escala de internet para controlar robôs. Ao representar ações robóticas como tokens de texto e co-ajustar modelos de visão e linguagem de última geração com dados de trajetória de robôs e tarefas de visão e linguagem em escala de internet, o RT-2 alcança uma generalização notável. Ele entende comandos complexos, realiza raciocínio semântico em várias etapas e até usa ferramentas improvisadas, como usar uma pedra como martelo. Essa pesquisa demonstra o imenso potencial de combinar as capacidades de modelos de linguagem grandes com o controle robótico, marcando um avanço significativo na robótica.

Leia mais