RoboPianist: Klavier spielen mit Deep Reinforcement Learning
Forscher trainierten anthropomorphe Roboterhände, um Klavier zu spielen, indem sie Deep Reinforcement Learning verwendeten. Sie bauten eine simulierte Umgebung mit MuJoCo, mit einer 88-Tasten-Digitaltastatur und zwei Shadow Dexterous Hands, jede mit 24 Freiheitsgraden. MIDI-Dateien wurden in zeitlich indizierte Notenbahnen umgewandelt, die als Zielrepräsentation für den Reinforcement-Learning-Agenten dienten. Um die Exploration-Herausforderung im hochdimensionalen Aktionsraum zu bewältigen, wurden menschliche Priors in Form von Fingersatz-Labels in die Belohnungsfunktion integriert. Ein hochmoderner modellfreier RL-Algorithmus, DroQ, wurde verwendet, um den Agenten zu trainieren, was zu erfolgreichen Klavieraufführungen verschiedener Stücke führte und beeindruckende F1-Scores im Etude-12-Subset erzielte. Die Forschung veröffentlicht auch einen simulierten Benchmark und einen Datensatz, um die hochdimensionale Steuerung voranzutreiben.