Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

RT-2: Transferindo conhecimento da Web para controle robótico com modelos Visão-Linguagem-Ação

2025-01-01

Pesquisadores do Google DeepMind desenvolveram o RT-2, um modelo que utiliza dados de visão e linguagem em escala de internet para controlar robôs. Ao representar ações robóticas como tokens de texto e co-ajustar modelos de visão e linguagem de última geração com dados de trajetória de robôs e tarefas de visão e linguagem em escala de internet, o RT-2 alcança uma generalização notável. Ele entende comandos complexos, realiza raciocínio semântico em várias etapas e até usa ferramentas improvisadas, como usar uma pedra como martelo. Essa pesquisa demonstra o imenso potencial de combinar as capacidades de modelos de linguagem grandes com o controle robótico, marcando um avanço significativo na robótica.