RoboPianiste : Maîtriser le piano avec l’apprentissage par renforcement profond

2025-02-27

Des chercheurs ont entraîné des mains de robot anthropomorphiques à jouer du piano en utilisant l’apprentissage par renforcement profond. Ils ont construit un environnement simulé utilisant MuJoCo, avec un clavier numérique à 88 touches et deux mains de robot Shadow Dexterous Hands, chacune avec 24 degrés de liberté. Les fichiers MIDI ont été convertis en trajectoires de notes indexées dans le temps, servant de représentation de l’objectif pour l’agent d’apprentissage par renforcement. Pour relever le défi d’exploration dans l’espace d’action de haute dimension, des a priori humains sous forme d’étiquettes de doigté ont été intégrés à la fonction de récompense. Un algorithme RL sans modèle de pointe, DroQ, a été utilisé pour entraîner l’agent, ce qui a abouti à des performances de piano réussies sur diverses pièces, obtenant des scores F1 impressionnants sur le sous-ensemble Etude-12. La recherche publie également un benchmark simulé et un ensemble de données pour faire progresser le contrôle de haute dimension.