RoboPianista: Dominando o Piano com Aprendizado por Reforço Profundo
Pesquisadores treinaram mãos robóticas antropomórficas para tocar piano usando aprendizado por reforço profundo. Eles construíram um ambiente simulado usando MuJoCo, com um teclado digital de 88 teclas e duas mãos robóticas Shadow Dexterous Hands, cada uma com 24 graus de liberdade. Arquivos MIDI foram convertidos em trajetórias de notas indexadas no tempo, servindo como representação de objetivo para o agente de aprendizado por reforço. Para enfrentar o desafio de exploração no espaço de ação de alta dimensão, priors humanos na forma de rótulos de digitacao foram incorporados à função de recompensa. Um algoritmo RL sem modelo de última geração, DroQ, foi usado para treinar o agente, resultando em performances de piano bem-sucedidas em várias peças, alcançando pontuações F1 impressionantes no subconjunto Etude-12. A pesquisa também lança um benchmark simulado e um conjunto de dados para avançar o controle de alta dimensão.