谷歌最近发布了一款名为MusicRL的音乐生成系统,该系统通过结合人类反馈与强化学习,显著提升了生成音乐的质量,使其更符合人类的品味。这一突破性的技术是基于预训练的MusicLM模型,该模型原本就能根据文本描述生成音乐,但谷歌的研究者们通过进一步微调,使其性能得到了显著提升。
为了优化生成音乐的质量,研究者们设计了与文本忠实度和音频质量相关的奖励函数,并运用强化学习(RL)对MusicLM进行微调,从而诞生了MusicRL-R模型。此外,谷歌还收集了大量的用户偏好数据,并通过人类反馈(RLHF)训练了MusicRL-U模型,这是首个大规模整合人类反馈的文本到音乐模型。
实验结果显示,无论是MusicRL-R还是MusicRL-U,在生成音乐的质量上都显著优于基线模型MusicLM。而当这两种方法结合使用时,产生的MusicRL-RU模型表现更为出色,达到了新的高度。
这项研究不仅为我们带来了更先进的音乐生成技术,还揭示了影响人类音乐偏好的各种音乐属性。这强调了在未来音乐生成模型的微调中,进一步融入人类听众的意见和反馈的重要性。随着这一技术的发展,我们有理由期待未来音乐创作领域的更多创新和突破。