Helix: Un Modelo de Acción Visión-Lenguaje para la Manipulación Robótica de Propósito General
Figure presenta Helix, un modelo innovador de Acción Visión-Lenguaje (VLA) que unifica la percepción, la comprensión del lenguaje y el control aprendido para superar los desafíos de larga data en la robótica. Helix logra varios avances: control continuo de alta frecuencia de todo el cuerpo superior, colaboración entre múltiples robots y la capacidad de recoger virtualmente cualquier objeto pequeño para el hogar usando solo instrucciones en lenguaje natural. Una sola red neuronal aprende todos los comportamientos sin ajuste fino específico para la tarea, ejecutándose en GPU integradas de bajo consumo de energía para su preparación comercial. La arquitectura de Helix, con "Sistema 1" (política visuomotora reactiva rápida) y "Sistema 2" (VLM preentrenado en internet), permite una generalización rápida y un control preciso, allanando el camino para escalar robots humanoides a entornos domésticos.
Leer más