点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息发布“源2.0-M32”开源大模型
首页> 科技频道> 人工智能 > 正文

浪潮信息发布“源2.0-M32”开源大模型

来源:光明网2024-05-29 14:58

  5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

  在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

  在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

  基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。

  源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

  浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。

  据悉,源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 重庆璧山:花开引客来 融合促振兴

  • 贵州凯里:“村T”舞台秀民族服饰之美

独家策划

推荐阅读
当前全球人工智能竞争日趋白热化,大模型手机助手成为智能终端领域的核心竞逐赛道。建议以技术协同创新为核心、以产学研深度融合为支撑、以包容审慎监管为保障,筑牢自身核心优势,抢抓大模型手机助手产业窗口期。
2026-03-10 09:57
近日,由蓝箭航天研制的220吨级液氧甲烷全流量补燃循环发动机“蓝焱”完成整机全系统长程试车,标志着我国在大推力高性能液体火箭发动机领域持续取得突破性进展。
2026-03-10 09:30
从空天地一体化网络到通信、感知与人工智能深度融合,6G被视为重塑全球数字信息基础设施格局的重要技术底座。
2026-03-10 09:29
我国目前农业科技进步贡献率已经超过64%,农作物良种覆盖率超过96%,农作物耕种收综合机械化率达到76.7%,“农业现代化建设迈上了一个新台阶”。
2026-03-10 09:27
全国两会期间,“养龙虾”的话题登上热搜。全国人大代表、中国工程院院士高文说:“现在大家急得不得了,生怕没有养上‘龙虾’。”
2026-03-10 09:26
从实验室的“青苹果”到产业端的“金苹果”,距离有多远?2026年全国两会期间,两位代表分享了他们的探索实践。
2026-03-09 09:46
加快科技自立自强,既是破解产业升级瓶颈的重要支撑,也是抢占未来产业新赛道、培育新质生产力的关键依托。
2026-03-09 09:45
在全国两会会场,记者见到了贵州省六盘水市水城区农业农村局农业综合开发中心主任杨恩兰代表,聊起了她来京前的“田间故事”。
2026-03-09 09:44
杨建成委员介绍,经过几十年发展,我国布局建造了一批重大科技基础设施。
2026-03-09 09:43
中国工程院院士,第十四届全国人大常委会委员、农业与农村委员会副主任委员唐华俊代表:为此,建议推动在农业法、乡村振兴促进法等相关法律法规中增设专章专节部署农业资源区划工作。
2026-03-09 09:27
粮食安全,是“国之大者”。3月5日提请十四届全国人大四次会议审查的“十五五”规划纲要草案提出“十五五”时期主要目标和重大任务,明确粮食综合生产能力达到1.45万亿斤左右。
2026-03-06 09:35
我国科技成果大量涌现,人形机器人大放异彩,开源大模型领跑全球,芯片攻关取得新突破,创新药迅猛发展。
2026-03-06 09:31
生态环境法典草案规定,国家根据需要在长江、黄河、青藏高原等重要流域、区域建立协调机制,统筹指导、综合协调长江、黄河、青藏高原等重要流域、区域的生态环境保护等工作。
2026-03-06 09:29
“十五五”时期,开展生态保护修复成效评估、科学开展大规模国土绿化,将确保生态保护修复走得更稳、更实、更远。
2026-03-06 09:27
当前,新一轮科技革命和产业变革加速突破,我国经济基础稳、优势多、韧性强、潜能大,中国特色社会主义制度优势、超大规模市场优势、完整产业体系优势、丰富人才资源优势更加彰显。
2026-03-06 09:25
(记者冯丽妃)3月4日,全国政协十四届四次会议首场“委员通道”集体采访活动在北京人民大会堂举行。”  令人欣慰的是,潘建伟表示,通过国家重大科研任务的锤炼,我国量子科技研究队伍呈现年轻化、跨学科交叉的特点,并且兼具前沿探索和工程攻关的能力。
2026-03-05 09:56
全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略带来的化橘红树苗。这是全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略制作的集纳了乡亲们笑脸的3D照片。
2026-03-05 09:56
在天津市滨海新区,海上油气平台建设工人操作打磨机器人。不仅是我们团队,金凤实验室已为入驻科学家搭建病理表型组平台、纳米合成平台等8个国际领先的科研平台,提供科研设施设备超过6000台套。
2026-03-05 09:56
中国科学院广州地球化学研究所王强研究员团队联合国际合作者的一项最新研究给出了答案:高原并非一直向上生长,而是经历了两次“抬升—沉降”的起伏旋回。“青藏高原的生长不是简单的‘长高’,而是多阶段‘抬升—沉降’交替的结果。
2026-03-05 09:56
全国政协委员、宁德时代新能源科技股份公司董事长曾毓群从产业实战经历出发,分享了独属我国新能源事业的攀登故事。他坚信,秉持攀登精神、锚定目标,脚踏实地、勇毅笃行,就没有越不过去的险峰,就没有实现不了的梦想!
2026-03-05 09:56
加载更多