阿里巴巴宣布其项目DreamTalk已经开源。这个项目可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。这个项目的开源意味着更多的开发者和研究人员可以使用这项技术,为其添加新的功能或者进行改进。DreamTalk的开源将为语音合成技术的发展带来新的动力。
图片来源网络
DreamTalk由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器。实验结果表明,通过三项技术结合的方式,DreamTalk能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作,超越了现有的同类产品。