RoboPianista: Dominando el Piano con Aprendizaje por Refuerzo Profundo

2025-02-27

Investigadores entrenaron manos robóticas antropomórficas para tocar el piano utilizando aprendizaje por refuerzo profundo. Construyeron un entorno simulado usando MuJoCo, con un teclado digital de 88 teclas y dos manos robóticas Shadow Dexterous Hands, cada una con 24 grados de libertad. Los archivos MIDI se convirtieron en trayectorias de notas indexadas en el tiempo, sirviendo como representación del objetivo para el agente de aprendizaje por refuerzo. Para abordar el desafío de exploración en el espacio de acción de alta dimensión, se incorporaron priors humanos en forma de etiquetas de digitación a la función de recompensa. Se utilizó un algoritmo RL sin modelo de última generación, DroQ, para entrenar al agente, lo que resultó en interpretaciones de piano exitosas en varias piezas, logrando puntuaciones F1 impresionantes en el subconjunto Etude-12. La investigación también lanza un benchmark simulado y un conjunto de datos para avanzar el control de alta dimensión.