RoboPianista: Dominando o Piano com Aprendizado por Reforço Profundo

2025-02-27

Pesquisadores treinaram mãos robóticas antropomórficas para tocar piano usando aprendizado por reforço profundo. Eles construíram um ambiente simulado usando MuJoCo, com um teclado digital de 88 teclas e duas mãos robóticas Shadow Dexterous Hands, cada uma com 24 graus de liberdade. Arquivos MIDI foram convertidos em trajetórias de notas indexadas no tempo, servindo como representação de objetivo para o agente de aprendizado por reforço. Para enfrentar o desafio de exploração no espaço de ação de alta dimensão, priors humanos na forma de rótulos de digitacao foram incorporados à função de recompensa. Um algoritmo RL sem modelo de última geração, DroQ, foi usado para treinar o agente, resultando em performances de piano bem-sucedidas em várias peças, alcançando pontuações F1 impressionantes no subconjunto Etude-12. A pesquisa também lança um benchmark simulado e um conjunto de dados para avançar o controle de alta dimensão.