Resolviendo robótica accidentalmente viendo 1 millón de horas de YouTube
Los investigadores resolvieron accidentalmente un problema de robótica de larga data entrenando un modelo llamado V-JEPA 2 con un millón de horas de videos de YouTube. En lugar de predecir la siguiente palabra, V-JEPA 2 predice el siguiente momento en la realidad, aprendiendo a comprender la física mediante la observación. A diferencia de los modelos anteriores dependientes del lenguaje, V-JEPA 2 demuestra una impresionante generalización de cero disparos, completando con éxito tareas complejas como agarrar y colocar objetos en entornos no vistos. Si bien persisten limitaciones como la sensibilidad a la posición de la cámara y la deriva de largo alcance, esta investigación abre nuevas vías para la robótica, insinuando un futuro en el que los robots podrían poseer una comprensión comparable a la de ChatGPT.