谷歌最近发布了一款全新的多模态大语言模型——VideoPoet。这款LLM(大语言模型)应用可以执行多种视频生成任务,包括文本生成视频、图像生成视频、视频风格化以及修补和扩展功能,甚至视频到音频的转化也能胜任。
VideoPoet基于多模态大语言模型技术,与现有的视频生成模型有所不同。目前已有的视频生成模型大多基于扩散模型的技术,而VideoPoet则将多个视频生成功能集中到单个LLM中,并利用LLM训练基础设施来提高生成效率。
VideoPoet具有多种强大的功能。例如,它可以从视频内容中获取信息,自动生成环境音频;通过深度和光线信息将视频转换为其他风格;用视频的最后一秒来预测下一秒的内容,以此生成一条长视频等。VideoPoet还可以通过类似的方法连续生成视频内容,并且在数次重复生成中,能够与现有视频保持连贯性。
这款全新的多模态大语言模型VideoPoet展示了谷歌在人工智能领域的最新成果,为视频生成领域注入了新的活力。随着技术的不断发展,我们有理由相信,未来的视频生成将会更加智能化、高效化,并且能够更好地满足人们的需求。