谷歌推出视频生成类多模态大语言模型VideoPoet

老鼠盘根 • 2023年12月21日下午5:58 • 人工智能 • 阅读 1270

谷歌最近发布了一款全新的多模态大语言模型——VideoPoet。这款LLM（大语言模型）应用可以执行多种视频生成任务，包括文本生成视频、图像生成视频、视频风格化以及修补和扩展功能，甚至视频到音频的转化也能胜任。

VideoPoet基于多模态大语言模型技术，与现有的视频生成模型有所不同。目前已有的视频生成模型大多基于扩散模型的技术，而VideoPoet则将多个视频生成功能集中到单个LLM中，并利用LLM训练基础设施来提高生成效率。

VideoPoet具有多种强大的功能。例如，它可以从视频内容中获取信息，自动生成环境音频；通过深度和光线信息将视频转换为其他风格；用视频的最后一秒来预测下一秒的内容，以此生成一条长视频等。VideoPoet还可以通过类似的方法连续生成视频内容，并且在数次重复生成中，能够与现有视频保持连贯性。

这款全新的多模态大语言模型VideoPoet展示了谷歌在人工智能领域的最新成果，为视频生成领域注入了新的活力。随着技术的不断发展，我们有理由相信，未来的视频生成将会更加智能化、高效化，并且能够更好地满足人们的需求。

本文来自用户或匿名投稿，不代表大众智能立场；本文所有内容（包括图片、视频等）版权均为原作者所有。涉及的相关问题请查阅本站免责声明，如侵权请及时与本站运营方取得联系（联系我们）我们将按声明中的处理方式进行处理。本文链接：https://dzzn.com/2023/2244.html