RoboPianist: 심층 강화 학습으로 피아노 연주 마스터하기

인기 태그：

가상화 DNS 보안 형식적 검증 도달 가능성 분석 C언어 경제 컴파일러 오류 매크로 충돌 웹 확장 기능 개발 프레임워크 모든 태그

2025-02-27

연구원들은 심층 강화 학습을 사용하여 인간형 로봇 손에 피아노 연주를 학습시켰습니다. MuJoCo 물리 엔진을 사용하여 88개 건반의 디지털 키보드와 두 개의 Shadow Dexterous Hands(각각 24자유도)를 포함하는 시뮬레이션 환경을 구축했습니다. MIDI 파일은 시간순으로 인덱싱된 음표 궤적으로 변환되어 강화 학습 에이전트의 목표 표현으로 사용되었습니다. 고차원 행동 공간에서의 탐색 과제를 해결하기 위해, 손가락 배치 라벨 형태의 인간 사전 지식이 보상 함수에 통합되었습니다. 최첨단 모델 프리 RL 알고리즘인 DroQ를 사용하여 에이전트를 훈련한 결과, 다양한 곡에서 성공적으로 피아노 연주를 수행했으며, Etude-12 하위 집합에서 인상적인 F1 점수를 달성했습니다. 이 연구는 고차원 제어 발전을 위해 시뮬레이션 벤치마크와 데이터셋도 공개합니다.