Helix: Ein Vision-Sprach-Aktionsmodell für die allgemeine Robotermanipulation
Figure stellt Helix vor, ein bahnbrechendes Vision-Sprach-Aktionsmodell (VLA), das Wahrnehmung, Sprachverständnis und gelerntes Steuern vereint, um langjährige Herausforderungen in der Robotik zu bewältigen. Helix erreicht mehrere Neuerungen: hochfrequente, kontinuierliche Steuerung des gesamten Oberkörpers, Zusammenarbeit mehrerer Roboter und die Fähigkeit, praktisch jeden kleinen Haushaltsgegenstand nur mit natürlichen Sprachbefehlen aufzuheben. Ein einziges neuronales Netzwerk lernt alle Verhaltensweisen ohne taskspezifische Feinabstimmung und läuft auf eingebetteten, energieeffizienten GPUs für die kommerzielle Bereitschaft. Die Architektur von Helix mit „System 1“ (schnelle reaktive visuomotrische Politik) und „System 2“ (im Internet vortrainiertes VLM) ermöglicht schnelle Generalisierung und präzise Steuerung und ebnet den Weg für die Skalierung von humanoiden Robotern auf Heimumgebungen.