Helix : Un modèle Vision-Langage-Action pour la manipulation robotique polyvalente
Figure présente Helix, un modèle révolutionnaire de Vision-Langage-Action (VLA) qui unifie la perception, la compréhension du langage et le contrôle appris pour surmonter les défis de longue date de la robotique. Helix réalise plusieurs prouesses : contrôle continu à haute fréquence de tout le haut du corps, collaboration multi-robots et capacité à ramasser pratiquement n'importe quel petit objet ménager en utilisant uniquement des instructions en langage naturel. Un seul réseau neuronal apprend tous les comportements sans aucun réglage fin spécifique à la tâche, fonctionnant sur des GPU embarqués à faible consommation d'énergie pour une mise en œuvre commerciale. L'architecture d'Helix, avec son "Système 1" (politique visuomotrice réactive rapide) et son "Système 2" (VLM pré-entraîné sur Internet), permet une généralisation rapide et un contrôle précis, ouvrant la voie à l'adaptation des robots humanoïdes aux environnements domestiques.
Lire plus