点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息发布“源2.0-M32”开源大模型
首页> 科技频道> 人工智能 > 正文

浪潮信息发布“源2.0-M32”开源大模型

来源:光明网2024-05-29 14:58

  5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

  在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

  在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

  基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。

  源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

  浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。

  据悉,源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 介绍和解读党的二十届四中全会精神

  • 两岸关系新形势学术研讨会暨清华两岸论坛在京举行

独家策划

推荐阅读
记者从在山东东营市召开的2025中日韩澳候鸟保护工作组会议上获悉:我国鸟类保护工作取得显著成效,白鹤、青头潜鸭、黑嘴鸥、中华凤头燕鸥、朱鹮等多个濒危物种种群数量实现稳定增长,2024年、2025年同步监测越冬水鸟数量连创历史调查监测新高。我国连续6年开展“清风行动”,相关违法案件数量和违法犯罪人员数量明显下降,鸟类等野生动植物非法贸易蔓延势头得到有效遏制。
2025-10-24 10:21
光明日报银川10月23日电 记者张文攀从宁夏林业和草原局获悉,多年来,宁夏始终把防沙治沙作为荒漠化防治的重点工作,荒漠化和沙化土地连续25年实现“双缩减”,率先在全国实现了“绿进沙退”的历史性转变。
2025-10-24 09:57
光明日报海口10月23日电 记者王晓樱、通讯员张阳日前从海南大学获悉,该校热带油茶研究团队在海南五指山热带雨林进行油茶种质资源收集时,发现油茶新物种——五指山油茶。研究团队进一步通过形态学比对和叶绿体基因组系统进化分析,确认这次发现的油茶为独立物种。
2025-10-24 09:55
自半导体产业诞生以来,光刻技术始终发挥着关键作用,是推动集成电路芯片制程工艺持续微缩的核心驱动力之一。彭海琳告诉记者,在芯片制造的光刻流程中,“显影”是决定图案成败的核心一步。
2025-10-24 09:54
23日22时30分,我国在文昌航天发射场使用长征五号运载火箭,成功将通信技术试验卫星二十号发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
2025-10-24 09:52
从自动化生产线到智能机器人,从大数据分析到物联网技术,从节能改造到绿色转型……当前,我国制造业进入一个更加高端化、智能化、绿色化的制造新时代。其中,推动制造业高端化、智能化、绿色化,有利于持续增强制造业核心竞争力,推动质量提升和品牌建设,不断引领产业向中高端跃升。
2025-10-24 09:51
工业和信息化部近日印发通知,部署开展城域“毫秒用算”专项行动。
2025-10-23 10:31
近日,以“先进制造”为主题的第138届广交会第一期落下帷幕。截至10月19日,境外采购商线下到会人数超15.79万人,环比增长6.3%。
2025-10-23 10:27
日前,大连理工大学科研团队研发的无人机蒙皮超薄一体化集成射频传感器挂飞成功,这标志着我国曲面天线全3D打印技术向实装应用迈出了重要一步。
2025-10-23 10:26
研究团队首次在原子尺度揭示了冰在二维下独特的“织网式”结晶过程。该成果日前发表于国际学术期刊《自然·通讯》。
2025-10-23 10:24
据农情调度,截至10月21日,全国秋粮收获近八成。
2025-10-23 10:23
科研和产业像“两张皮”,中间缺了能把成果“送上门”的人。
2025-10-22 10:17
由美国斯坦福医学院、英国莫菲尔德眼科医院、德国波恩大学等多家国际科研机构组成的团队,开发出一款视网膜下无线微芯片,成功帮助晚期老年性黄斑变性患者恢复了视力。
2025-10-22 10:15
为深切缅怀杨振宁先生,位于清华大学图书馆老馆219室的杨振宁书屋日前正式开放,与其同步启用的杨振宁档案资料库专题网站也面向全球上线发布。
2025-10-22 10:09
中国科学家研究发现,含利福特尼唑的三联方案,让幽门螺杆菌治疗有望重新回归更简便的三联方案时代,为全球幽门螺杆菌感染者带来了全新的治疗选择。
2025-10-22 10:06
10月21日,在上海淀山湖畔举办的“2025年全国青少年智能无人系统应用大赛”发布获奖名单。
2025-10-22 10:04
10月20日,记者从中国工程物理研究院北京高压科学研究中心了解到,该中心联合广东省科学院组成的研究团队,日前在广东省肇庆市德庆县发现了一处小行星撞击形成的地质遗迹——金林陨石坑。
2025-10-21 09:49
美国西雅图华盛顿大学的Grace Hendricks和同事证明,一种mRNA版本的新冠纳米颗粒疫苗在小鼠体内产生的免疫反应是标准mRNA疫苗的28倍。
2025-10-21 09:42
10月17日,中国科学院国家天文台举办“用于太阳磁场精确测量的中红外观测系统”(AIMS)研制总结暨未来科学规划研讨会。”
2025-10-21 09:39
单日就可最多烘干稻谷5000吨。
2025-10-21 09:28
加载更多