RT-2 : Transfert de connaissances Web vers le contrôle robotique grâce aux modèles Vision-Langage-Action

2025-01-01
RT-2 : Transfert de connaissances Web vers le contrôle robotique grâce aux modèles Vision-Langage-Action

Des chercheurs de Google DeepMind ont développé RT-2, un modèle qui exploite des données vision-langage à l'échelle d'Internet pour contrôler des robots. En représentant les actions robotiques sous forme de jetons textuels et en co-affinant des modèles vision-langage de pointe avec des données de trajectoire de robots et des tâches vision-langage à l'échelle d'Internet, RT-2 atteint une généralisation remarquable. Il comprend des commandes complexes, effectue un raisonnement sémantique en plusieurs étapes et utilise même des outils improvisés, comme utiliser une pierre comme marteau. Cette recherche met en évidence l'immense potentiel de la combinaison des capacités des grands modèles de langage avec le contrôle robotique, marquant un progrès significatif dans le domaine de la robotique.