Helix: Ein Vision-Sprach-Aktionsmodell für die allgemeine Robotermanipulation

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Helix: Ein Vision-Sprach-Aktionsmodell für die allgemeine Robotermanipulation

2025-02-20

Figure stellt Helix vor, ein bahnbrechendes Vision-Sprach-Aktionsmodell (VLA), das Wahrnehmung, Sprachverständnis und gelerntes Steuern vereint, um langjährige Herausforderungen in der Robotik zu bewältigen. Helix erreicht mehrere Neuerungen: hochfrequente, kontinuierliche Steuerung des gesamten Oberkörpers, Zusammenarbeit mehrerer Roboter und die Fähigkeit, praktisch jeden kleinen Haushaltsgegenstand nur mit natürlichen Sprachbefehlen aufzuheben. Ein einziges neuronales Netzwerk lernt alle Verhaltensweisen ohne taskspezifische Feinabstimmung und läuft auf eingebetteten, energieeffizienten GPUs für die kommerzielle Bereitschaft. Die Architektur von Helix mit „System 1“ (schnelle reaktive visuomotrische Politik) und „System 2“ (im Internet vortrainiertes VLM) ermöglicht schnelle Generalisierung und präzise Steuerung und ebnet den Weg für die Skalierung von humanoiden Robotern auf Heimumgebungen.

(www.figure.ai)

KI Vision-Sprach-Aktionsmodell

KI-Betrug: Fortschrittliche KI-Modelle nutzen Sicherheitslücken für den Sieg aus

RT64: Ein hochmoderner N64-Grafikrenderer