RT-2: Transferencia de conocimiento web al control robótico con modelos Visión-Lenguaje-Acción

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-01-01

Investigadores de Google DeepMind han desarrollado RT-2, un modelo que aprovecha datos de visión y lenguaje a escala de internet para controlar robots. Al representar las acciones robóticas como tokens de texto y co-ajustar modelos de visión y lenguaje de vanguardia con datos de trayectoria de robots y tareas de visión y lenguaje a escala de internet, RT-2 logra una generalización notable. Entiende comandos complejos, realiza razonamiento semántico en varias etapas e incluso utiliza herramientas improvisadas, como usar una piedra como martillo. Esta investigación muestra el inmenso potencial de combinar las capacidades de los modelos de lenguaje grandes con el control robótico, marcando un gran avance en la robótica.