Webtagr - 기술 뉴스 다이제스트

AI, 포켓몬 레드 정복: 소형 RL 에이전트의 승리

2025-03-05

한 팀이 1000만 개 미만의 매개변수를 가진 정책(DeepSeekV3보다 6만 배 이상 작음)을 사용하는 강화 학습(RL)을 통해 1996년 게임 '포켓몬스터 레드'를 성공적으로 클리어했습니다. 이 프로젝트는 오픈 소스이며, 기존의 포켓몬 역공학 도구와 게임 에뮬레이터를 활용합니다. 팀은 대규모 사전 학습 데이터 세트가 필요 없는 효율적인 데이터 수집을 위해 RL을 선택했습니다. 이는 AI가 복잡한 게임을 정복하는 데 있어 획기적인 사건이며, 더욱 어려운 환경에서의 강화 학습에 대한 새로운 기준을 제시합니다.

(drubinstein.github.io)