Résolution accidentelle de problèmes de robotique en regardant 1 million d'heures de vidéos YouTube
Des chercheurs ont résolu accidentellement un problème de longue date en robotique en entraînant un modèle appelé V-JEPA 2 sur un million d'heures de vidéos YouTube. Au lieu de prédire le prochain mot, V-JEPA 2 prédit le prochain moment dans la réalité, apprenant à comprendre la physique par l'observation. Contrairement aux modèles précédents dépendants du langage, V-JEPA 2 démontre une impressionnante généralisation zero-shot, réussissant à accomplir des tâches complexes comme saisir et placer des objets dans des environnements inconnus. Bien que des limitations subsistent, telles que la sensibilité à la position de la caméra et la dérive à long terme, cette recherche ouvre de nouvelles voies pour la robotique, suggérant un avenir où les robots pourraient posséder une compréhension comparable à celle de ChatGPT.
Lire plus