Fragmentación en Tiempo Real para Modelos de Visión-Lenguaje-Acción
Este artículo presenta el Real-Time Chunking (RTC), un algoritmo que aborda el desafío de la ejecución en tiempo real de modelos de Visión-Lenguaje-Acción (VLA) en robótica. Los VLA tradicionales son lentos y propensos a discontinuidades al cambiar entre bloques de acción, lo que lleva a un comportamiento inestable del robot. El RTC resuelve esto dividiendo las acciones en bloques y generando el siguiente bloque mientras se ejecuta el anterior, logrando un rendimiento en tiempo real y eliminando discontinuidades. Los experimentos demuestran que el RTC mejora significativamente la velocidad y la precisión de ejecución, manteniendo un rendimiento robusto incluso con alta latencia. Esta investigación allana el camino para la construcción de robots capaces de manejar tareas complejas en tiempo real.
Leer más