Fragmentación en Tiempo Real para Modelos de Visión-Lenguaje-Acción

2025-06-17

Este artículo presenta el Real-Time Chunking (RTC), un algoritmo que aborda el desafío de la ejecución en tiempo real de modelos de Visión-Lenguaje-Acción (VLA) en robótica. Los VLA tradicionales son lentos y propensos a discontinuidades al cambiar entre bloques de acción, lo que lleva a un comportamiento inestable del robot. El RTC resuelve esto dividiendo las acciones en bloques y generando el siguiente bloque mientras se ejecuta el anterior, logrando un rendimiento en tiempo real y eliminando discontinuidades. Los experimentos demuestran que el RTC mejora significativamente la velocidad y la precisión de ejecución, manteniendo un rendimiento robusto incluso con alta latencia. Esta investigación allana el camino para la construcción de robots capaces de manejar tareas complejas en tiempo real.