Instruct-MusicGen是一种新颖的文本到音乐编辑方法,它能够有效地遵循编辑指令,通过微调预训练的MusicGen模型来修改音乐,而不需要从头开始训练特定模型或依赖大型语言模型。Instruct-MusicGen将文本融合模块和音频融合模块整合到原始的MusicGen架构中,允许模型同时处理指令文本和音频输入。这种方法仅向原始MusicGen模型引入了8%的新参数,并且只需要5K个训练步骤,就能在所有任务中实现比现有基线更优越的性能,并展现出与针对特定任务训练的模型相当的性能。