100万時間のYouTube動画を見て、ロボット工学を偶然解決した方法
2025-06-30

研究者たちは、V-JEPA 2というモデルを100万時間のYouTube動画でトレーニングすることにより、長年のロボット工学における問題を偶然解決しました。次の単語を予測するのではなく、V-JEPA 2は現実世界の次の瞬間を予測することで、観察を通して物理を理解することを学習します。以前の言語依存モデルとは異なり、V-JEPA 2は、未見の環境で物体の把持や配置などの複雑なタスクを成功させることで、驚異的なゼロショット汎化能力を示しました。カメラの位置への感度や長期的なドリフトなどの制約が残っていますが、この研究はロボット工学に新たな道を開き、ロボットがChatGPTと同等の理解能力を持つ未来を示唆しています。
AI