源 2.0 基础大模型包括 1026 亿、518 亿、21 亿等三种参数规模的模型,分别以英文、中英文混合和中文作为训练语言。
源 2.0 采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量。算力方面,源 2.0 采用了非均匀流水并行的方法,综合运用流水线并行 + 优化器参数并行 + 数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题。
在评测上,源 2.0 进行了代码生成、数学问题求解、事实问答方面的能力测试,测试结果显示,源 2.0 整体表现处于中上水平。
源 2.0 采用全面开源策略,全系列模型参数和代码均可免费下载使用。通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比。为了获取中文数学数据,浪潮信息清洗了从 2018 年至今约 10PB 的互联网数据,但仅获取到了约 10GB 的数学数据。
总体来说,浪潮信息此次发布的“源2.0”基础大模型具有以下特点:
模型规模大
浪潮信息发布的“源2.0”基础大模型包括1026亿、518亿、21亿三种参数规模的模型。
编程、推理、逻辑能力强
浪潮信息发布的“源2.0”基础大模型在编程、推理、逻辑等方面展示出了先进的能力。
开源免费
浪潮信息发布的“源2.0”基础大模型采用了全面开源策略,全系列模型参数和代码均可免费下载使用。
感兴趣的朋友可以查看代码开源的原始链接:
https://github.com/IEIT-Yuan/Yuan-2.0
以及相关的论文,希望对你们有所帮助:
https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2.0_paper.pdf