RT-2: Transferencia de conocimiento web al control robótico con modelos Visión-Lenguaje-Acción

2025-01-01

Investigadores de Google DeepMind han desarrollado RT-2, un modelo que aprovecha datos de visión y lenguaje a escala de internet para controlar robots. Al representar las acciones robóticas como tokens de texto y co-ajustar modelos de visión y lenguaje de vanguardia con datos de trayectoria de robots y tareas de visión y lenguaje a escala de internet, RT-2 logra una generalización notable. Entiende comandos complejos, realiza razonamiento semántico en varias etapas e incluso utiliza herramientas improvisadas, como usar una piedra como martillo. Esta investigación muestra el inmenso potencial de combinar las capacidades de los modelos de lenguaje grandes con el control robótico, marcando un gran avance en la robótica.