Echtzeit-Chunking für Vision-Language-Action-Modelle

2025-06-17

Dieser Artikel stellt Real-Time Chunking (RTC) vor, einen Algorithmus, der die Herausforderung der Echtzeit-Ausführung von Vision-Language-Action (VLA)-Modellen in der Robotik angeht. Traditionelle VLA-Modelle sind langsam und anfällig für Diskontinuitäten beim Wechsel zwischen Aktionsblöcken, was zu instabilem Roboterverhalten führt. RTC löst dies, indem es Aktionen in Blöcke unterteilt und den nächsten Block während der Ausführung des vorherigen Blocks generiert, wodurch Echtzeit-Leistung erreicht und Diskontinuitäten eliminiert werden. Experimente zeigen, dass RTC die Ausführungsgeschwindigkeit und -genauigkeit deutlich verbessert und auch bei hoher Latenz eine robuste Leistung aufrechterhält. Diese Forschung ebnet den Weg für den Bau von Robotern, die komplexe Aufgaben in Echtzeit bewältigen können.

Mehr lesen