AI 에이전트, 사람처럼 컴퓨터 사용 학습

2025-02-06
AI 에이전트, 사람처럼 컴퓨터 사용 학습

r1-computer-use 프로젝트는 파일 시스템, 웹 브라우저, 명령줄 등을 포함하여 사람처럼 컴퓨터를 사용할 수 있는 AI 에이전트를 훈련하는 것을 목표로 합니다. DeepSeek-R1의 강화 학습 기술에서 영감을 받은 이 프로젝트는 기존의 하드 코딩된 검증기 대신 에이전트의 행동의 정확성과 유용성을 평가하기 위한 뉴럴 보상 모델을 사용합니다. 훈련 파이프라인은 전문가 데모에서 보상 모델 기반 정책 최적화 및 미세 조정까지 여러 단계를 포함하며, 궁극적으로 복잡한 작업을 수행할 수 있는 안전하고 신뢰할 수 있는 AI 에이전트를 목표로 합니다.