点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息发布“源2.0-M32”开源大模型
首页> 科技频道> 人工智能 > 正文

浪潮信息发布“源2.0-M32”开源大模型

来源:光明网2024-05-29 14:58

  5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

  在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

  在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

  基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。

  源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

  浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。

  据悉,源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “消防奥运会”在哈尔滨市举行

  • 白露时节秋收忙

独家策划

推荐阅读
通过三代核电自主化,中国正实现对国际最高水平的赶超,助力“双碳”目标实现。
2024-09-06 08:50
中国人民银行信贷市场司司长彭立峰给出一组亮眼数据:过去5年,我国科技型企业贷款的年均增速是20%,是贷款平均增速的近2倍。
2024-09-06 08:48
作为离地球较近且环境最相似的星球,火星一直是人类走出地月系统开展深空探测的首选目标。
2024-09-06 08:46
基于此成果,华大目前已联合香港理工大学,成立香港理工大学—华大·全球深海资源基因组学和合成生物学联合研究中心,实施进一步研发和产业化。
2024-09-06 08:45
5日,在国家林草局举办的国家公园和国家植物园体系建设成效新闻发布会上,国家林草局自然保护地管理司司长张利明介绍,我国已基本构建国家公园制度体系的“四梁八柱”。
2024-09-06 07:20
回音壁印章设计者、中国建筑材料科学研究总院有限公司北京分公司研发工程师焦朋告诉记者,回音壁存在特殊声学现象,可以让声音形成回声。
2024-09-06 08:47
有两组数据最能直观展现云南的丰饶:以仅占全国4%的国土面积,保育了48.01%的国家重点保护野生植物和56.27%的重点保护陆生野生动物;在南北间距不过900公里的土地上,拥有7种气候类型,囊括了地球上除海洋和沙漠以外所有的生态系统类型。
2024-09-06 07:20
近几年,人工智能在许多行业都有应用,成为人类的“好帮手”。但在这一过程中,也出现了各种各样的问题。
2024-09-05 05:30
经过近3千米的行驶,我们来到了这座小山的山顶,这里距离海面约750米,地貌以岩石为主,可以看到海星、海胆、珊瑚和海葵等。
2024-09-05 08:29
冰箱在使用过程中的减碳,不仅来自冰箱自身运转过程中的节能,还来自冰箱保冷、保鲜技术提升而减少的食物浪费。
2024-09-05 08:26
禾本科植物适应性强,易于推广种植。如:小麦抗旱、耐冷,水稻耐涝、耐热、耐移栽,玉米耐热、耐瘠薄、抗旱、光能利用率高,谷子、高粱和燕麦耐盐碱、耐瘠薄、抗旱、光合作用能力强。
2024-09-05 08:25
近期,中国地震局与国家成都超算中心、清华大学等多家单位联合发布全球第一个亿级参数的地震波大模型。
2024-09-05 08:23
打造了多种高科技气象服务产品。
2024-09-05 05:20
随着“山河号”盾构机刀盘缓缓启动,济南市黄岗路穿黄隧道开始盾构掘进,我国最大直径水下盾构隧道开启穿越黄河之旅。
2024-09-05 08:23
科学研究,不仅是对未知的探索,更要体现对现实的关怀,其落脚点应当是促进经济社会发展。
2024-09-05 08:28
高耸入云的南迦巴瓦峰,奔腾不息的雅鲁藏布江,见证了对口援藏30年来雪域高原的沧桑巨变。
2024-09-04 10:02
围绕“规模应用 生态赋能”,大会发布了北斗规模应用操作系统、大众北斗1米精准定位服务等系列成果,央地携手推动北斗规模应用先行先试。
2024-09-04 09:16
身高1.68米、全身自由度超过50个、搭载robotGPT云端大脑的达闼人形机器人XR4,已经在7月初世界人工智能大会上开启了预售,一台价格39.9万元起。
2024-09-04 09:15
我国在西昌卫星发射中心使用长征四号乙运载火箭,成功将遥感四十三号02组卫星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
2024-09-04 09:13
中国石油3日发布的信息显示,我国最大油气田——中国石油长庆油田累计生产油气当量历史性突破10亿吨。这是长庆油田继2020年建成6000万吨级特大油气田之后取得的又一里程碑式成就。
2024-09-04 04:15
加载更多