RT-2: 웹 지식을 시각 언어 행동 모델을 통해 로봇 제어에 전송

2025-01-01

Google DeepMind 연구원들은 인터넷 규모의 시각 언어 데이터를 활용하여 로봇 제어를 가능하게 하는 모델인 RT-2를 개발했습니다. 로봇의 행동을 텍스트 토큰으로 표현하고 최첨단 시각 언어 모델을 로봇의 궤적 데이터와 인터넷 규모의 시각 언어 작업으로 공동 미세 조정함으로써 RT-2는 놀라운 일반화 능력을 달성했습니다. 복잡한 명령을 이해하고, 다단계 의미 추론을 수행하며, 돌을 망치로 사용하는 등 즉석 도구도 사용합니다. 이 연구는 대규모 언어 모델의 기능과 로봇 제어를 결합할 수 있는 가능성을 보여주며, 로봇 공학 분야의 큰 발전을 나타냅니다.

(robotics-transformer2.github.io)

AI 시각 언어 모델

Common Lisp에서의 시간 처리: LOCAL-TIME 솔루션