Segmentation en temps réel pour les modèles Vision-Langage-Action
Cet article présente le Real-Time Chunking (RTC), un algorithme qui répond au défi de l'exécution en temps réel des modèles Vision-Langage-Action (VLA) en robotique. Les VLA traditionnels sont lents et sujets aux discontinuités lors du changement de blocs d'action, ce qui entraîne un comportement instable du robot. Le RTC résout ce problème en divisant les actions en blocs et en générant le bloc suivant pendant l'exécution du précédent, atteignant ainsi des performances en temps réel et éliminant les discontinuités. Les expériences montrent que le RTC améliore significativement la vitesse et la précision d'exécution, maintenant des performances robustes même avec une latence élevée. Cette recherche ouvre la voie à la construction de robots capables de gérer des tâches complexes en temps réel.
Lire plus