百川智能发布全面领先的开源大模型 Baichuan 2,数学、代码能力大幅提升

Baichuan 2是百川智能发布的一款开源大模型,号称“文理兼备全面领先LLaMA 2”。百川智能在这次主题为“百川汇海,开源共赢”的发布会上正式开源了微调后的Baichuan2-7B、Baichuan2-13B和Baichuan2-13B-Chat以及它们的4bit量化版本。这些模型都是免费且可商用的。

除了开源模型本身,百川智能还公开了模型训练过程中的Check Point,并宣布将发布Baichuan 2技术报告,详细介绍Baichuan 2的训练细节。你可以在这个链接中找到Baichuan 2的下载地址:https://github.com/baichuan-inc/Baichuan2

根据百川智能官方的介绍,Baichuan2-7B-Base和Baichuan2-13B-Base都基于2.6万亿高质量多语言数据进行了训练。这两个模型在数学、代码、安全、逻辑推理和语义理解等能力方面都有显著的提升。具体来说,Baichuan2-13B-Base相比上一代13B模型,在数学能力的提升上有49%,代码能力的提升上有46%,安全能力的提升上有37%,逻辑推理能力的提升上有25%,语义理解能力的提升上有15%。

在MMLU、CMMLU、GSM8K等基准测试中,百川智能的这两个模型都比LLaMA 2的分数要高一些,而且在“中文通用”部分的优势较大。

Baichuan2-7B和Baichuan2-13B不仅对学术研究完全开放,开发者也只需通过邮件申请获得官方商用许可后,就可以免费商用。腾讯云、阿里云、火山方舟、华为、联发科等企业都参加了本次发布会并与百川智能达成了合作。

本文来自用户或匿名投稿,不代表大众智能立场;本文所有内容(包括图片、视频等)版权均为原作者所有。涉及的相关问题请查阅本站免责声明,如侵权请及时与本站运营方取得联系(联系我们)我们将按声明中的处理方式进行处理。本文链接:https://dzzn.com/2023/825.html

(0)
上一篇 2023年9月7日 上午10:33
下一篇 2023年9月7日 上午10:46

相关推荐

发表回复

登录后才能评论