阿里云开源Qwen-VL视觉语言模型，更适用于中国用户的多模态应用

guoguo • 2023年8月25日下午4:46 • 人工智能 • 阅读 1098

近日，阿里云旗下魔搭社区宣布开源了一款名为Qwen-VL的视觉语言模型。该模型以通义千问70亿参数模型Qwen-7B为基座语言模型，具备了图文输入和多模态信息理解的能力，更适用于中国用户的需求。

Qwen-VL在基于Qwen-7B模型的基础上新增了一些重要功能，包括视觉定位和图像中文字理解等。这意味着Qwen-VL可以接受图像和多语言文本作为输入，进一步提升了模型的多模态处理能力。这一创新使得Qwen-VL能够更好地适应中国用户的需求，为他们提供更加准确、全面的信息理解和处理。

此次开源的Qwen-VL包括通用模型Qwen-VL和对话模型Qwen-VL-Chat两个版本。通用模型Qwen-VL具备了强大的多模态信息理解能力，可以广泛应用于图像识别、文字理解等领域。而对话模型Qwen-VL-Chat则专注于快速搭建具备多模态能力的对话应用，具有快速推理速度和低资源消耗的特点。

阿里云的开源举措为开发者和研究人员提供了更多自由和灵活性，他们可以根据自己的需求和场景，利用Qwen-VL构建出更加智能、高效的应用系统。同时，这也进一步推动了中国在人工智能领域的创新和发展。

相信随着Qwen-VL的开源和广泛应用，我们将会见证更多基于视觉语言模型的创新应用和技术突破。阿里云将继续致力于推动人工智能技术的进步，为用户提供更多智能化的解决方案和服务。

本文来自用户或匿名投稿，不代表大众智能立场；本文所有内容（包括图片、视频等）版权均为原作者所有。涉及的相关问题请查阅本站免责声明，如侵权请及时与本站运营方取得联系（联系我们）我们将按声明中的处理方式进行处理。本文链接：https://dzzn.com/2023/367.html