点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “中欧青年对话会2025”在京举行

  • 山东东营:河海交汇的湿地之城

独家策划

推荐阅读
如今,在学习中遇到问题可以问人工智能,写作业也可以用人工智能辅助查询信息。正如这名同学所言,生成式人工智能正改变传统的以知识积累和传递为中心的教学模式。
2025-11-18 10:28
11月17日,在水利部举行的“贯彻落实党的二十届四中全会精神 推动节水产业高质量发展”新闻发布会上,水利部副部长陈敏介绍,目前,我国节水产业呈现出蓬勃发展的良好势头,
2025-11-18 04:20
新疆维吾尔自治区科技创新大会17日在乌鲁木齐举行。会上,干旱区生态安全与可持续发展全国重点实验室、丝路水实验室、昆仑智能装备实验室、
2025-11-18 04:20
党的二十届四中全会审议通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》指出,以创新能力、质量、实效、贡献为评价导向,深化项目评审、机构评估、
2025-11-18 04:25
近日,2025年6G发展大会在北京经济技术开发区举行。
2025-11-18 04:20
这台高能非弹谱仪的独特之处在于,它利用了中子不带电、穿透力强的特性,能够直接探测到物质内部的微观运动。
2025-11-17 08:56
建立和完善国家公园监测网络体系,是我国生态文明建设领域的重要实践,是践行人与自然和谐共生现代化理念的具体体现。
2025-11-17 04:30
浙江清凉峰国家级自然保护区是我国重要的生物多样性聚集地之一,也是长三角地区珍贵的物种基因库。
2025-11-17 04:30
近日,我国科研团队在嫦娥六号月背样品中首次发现大型撞击事件成因的微米级赤铁矿和磁赤铁矿晶体,揭示了全新的月球氧化反应机制,为环绕南极-艾特肯盆地磁异常的撞击成因提供了样品实证。
2025-11-17 04:30
在不久前召开的联合国教科文组织“人与生物圈计划”国际协调理事会第37次会议上,内蒙古大青山国家级自然保护区和陕西周至国家级自然保护区,被批准为“世界生物圈保护区网络”成员。
2025-11-17 04:30
以“智跃无界,开源致远”为主题的操作系统大会2025(以下简称“大会”)在北京举办。
2025-11-14 17:08
我国在4个国家开展6处文物古迹保护修复,49项中外联合考古项目涉及28个国家和地区,用实际行动践行全球文明倡议、不断丰富世界文明百花园。
2025-11-13 07:07
由四川省人民政府主办的2025世界动力电池大会12日在宜宾市开幕。
2025-11-13 04:55
据估算,太阳每秒钟释放的能量,可供全人类使用约70万年。模拟太阳来产生无尽的清洁能源,也因此成为人类的“终极能源梦想”。
2025-11-13 04:55
日前,中国科学院合肥物质科学研究院智能机械研究所、中科合肥智能育种加速器创新研究院联合发布重要成果:全链条机器人育种家“小海”与“海霸设施”小麦快速育种商业化服务平台同步启动,标志着我国在智能育种装备与工程化应用上取得关键突破。
2025-11-13 04:55
日前,记者从全球规模最大的恐龙蛋化石遗址——湖北青龙山恐龙蛋化石群国家级自然保护区获悉,数字化档案建设团队正为库藏的每一枚较完整恐龙蛋化石,赋予由“保护区名称—化石产地名称—库藏箱编号—标本编号”构成的唯一“身份证ID”。这标志着该保护区首次实现恐龙蛋化石专属标识管理。
2025-11-13 04:55
困扰无数人的睡眠问题,终于有一部纪录片说清楚了!
2025-11-13 08:55
国家卫生健康委百万减残工程专家委员会主任委员、中国医学科学院北京协和医学院院校长吉训明介绍,目前,全国已有20个省份成立减残工程专委会,8个省份正在积极推进。
2025-11-12 07:24
2025年是中国科学院院士、我国理论物理学奠基人、“两弹一星功勋奖章”获得者彭桓武诞辰110周年。
2025-11-12 07:23
由中国科学院昆明动物研究所牵头,联合国内外多家科研机构组成的研究团队,通过对现存及灭绝长臂猿的大规模基因组测序与比较分析,系统阐明了长臂猿科的演化历程、种群动态及其标志性长臂表型的遗传基础,为全球长臂猿的保护行动提供了新的科学见解,相关研究成果日前发表于国际学术期刊《细胞》。
2025-11-12 05:10
加载更多