100만 시간의 유튜브 영상 시청으로 우연히 해결된 로보틱스 문제
2025-06-30

연구자들은 V-JEPA 2라는 모델을 100만 시간의 유튜브 영상으로 훈련시켜 오랫동안 로보틱스 분야에서 해결되지 않던 문제를 우연히 해결했습니다. 다음 단어를 예측하는 대신 V-JEPA 2는 현실 세계의 다음 순간을 예측하여 관찰을 통해 물리를 이해하는 것을 학습합니다. 이전의 언어 의존 모델과 달리 V-JEPA 2는 본 적 없는 환경에서 물체 파악 및 배치와 같은 복잡한 작업을 성공적으로 수행함으로써 놀라운 제로샷 일반화 능력을 보여주었습니다. 카메라 위치에 대한 민감도나 장기적인 드리프트와 같은 제약이 남아 있지만, 이 연구는 로보틱스에 새로운 길을 열어주며 로봇이 ChatGPT와 비슷한 이해력을 갖게 될 미래를 시사합니다.
AI