点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 粤港澳大湾区低空经济高质量发展大会举行

  • 广东:AI玩具促进产业“智造”升级

独家策划

推荐阅读
记者25日从国防科技大学获悉,该校磁浮团队近日在磁悬浮试验中,成功在两秒内将吨级试验车加速至700公里/小时。测试速度打破了同类型平台全球纪录,成为全球最快的超导电动磁悬浮试验速度。
2025-12-26 10:08
12月24日,中国科学院重大科技基础设施“载人潜水器与海上作业母船”用户委员会2025年度会议披露:我国“深海勇士”号、“奋斗者”号、“蛟龙”号三大载人潜水器全年完成314次深潜,累计下潜总量达1746次,2026年将向2000次目标稳步迈进。
2025-12-26 10:05
日前,国家自然科学基金委员会在北京召开国家自然科学基金首批重大非共识项目遴选会议,标志着重大非共识项目正式启动试点。国家自然科学基金委员会将深入实施并持续优化重大非共识项目遴选机制,引导广大科研人员聚焦高水平原创性科研工作狠下功夫。
2025-12-26 09:59
其实,流感和普通感冒不是一回事,用药自然不能一概而论。流感一来往往会发高烧(体温39—40摄氏度),浑身肌肉酸痛、没力气,症状重;普通感冒多是鼻塞、流鼻涕、喉咙痛,发烧也多是低热,症状轻。
2025-12-26 09:58
一项近日发表于《科学》的研究指出,像ChatGPT 这样的人工智能(AI)工具正在大幅增加论文产量。此类文本数量的不断增加,使同行评议、资金决策和科研监督变得复杂,因为越来越难区分有意义的研究成果和低价值的内容。
2025-12-26 09:56
传统探查手段在如此深的地下几乎“失明”,无法精准捕捉地质特征。这项工程的成功实施,填补了我国超深埋输水隧洞注浆治理技术的空白,标志着我国在深埋地下工程地质探查与注浆治理领域达到国际领先水平。
2025-12-25 09:42
24日上午,随着最后一方混凝土浇筑完成,宁波舟山港六横公路大桥二期工程——青龙门特大桥双主塔成功封顶。青龙门特大桥位于浙江舟山,横跨青龙门水道,连接宁波梅山岛与舟山佛渡岛。
2025-12-25 09:45
24日,我国最大超深凝析气田——中国石油塔里木油田博孜—大北气田天然气年产量突破100亿立方米,生产凝析油91.89万吨。为攻克上述难题,塔里木油田持续攻关,推动气田开发实现从深层向超深层、从高压向超高压、从优质储层向复杂储层的三大跨越。
2025-12-25 09:44
前不久,“科学家预测恐龙复活有望实现”的话题冲上热搜,引起舆论关注。
2025-12-25 10:20
一项研究显示,科学家发现新物种的速度比以往任何时候都快——每年发现的新物种超过1.6万个,并且这一趋势没有放缓的迹象。除了医学,许多物种的适应特性还可以启发人类的发明创造,例如模仿壁虎垂直爬墙的“超强黏附”脚的材料。
2025-12-25 09:47
”这是中国科学院院士、北京航空航天大学研究生院原副院长高为炳生前在自述中留下的一句话。而在高为炳的学生看来,他之所以能在短时间内取得那么多成绩,根源就在于几十年的厚积薄发。
2025-12-25 09:46
昆虫性信息素相当于昆虫之间的“气味语言”,具有靶向性强、用量少、对环境友好等优点,是当前绿色植保的重要策略之一。
2025-12-24 10:05
作为中国科学院“十四五”重大项目之一,2022年7月27日,由中国科学院力学研究所(以下简称力学所)抓总研制的“力箭一号”火箭首飞成功。
2025-12-24 09:59
中国科学技术大学(以下简称中国科大)教授潘建伟、朱晓波、彭承志和副教授陈福升等基于超导量子处理器“祖冲之3.2号”,在码距为7的表面码上实现了低于纠错阈值的量子纠错,演示了逻辑错误率随码距增加而显著下降。
2025-12-24 09:58
为加快推进知识产权强国建设,日前,国家知识产权局会同有关部门编制完成《知识产权强国建设发展报告(2025年)》。
2025-12-24 09:57
国家能源局23日发布11月全国电动汽车充电设施数据。
2025-12-24 09:57
我国自主设计建造的全球首制甲醇双燃料动力智能超大型油轮“凯拓”轮22日在辽宁大连成功交付。
2025-12-23 09:54
中国科学院大连化学物理研究所副研究员方光宗、研究员潘秀莲团队在乙炔氢氯化制氯乙烯研究领域取得新进展。
2025-12-23 09:53
《自然》杂志网站12月18日刊发文章,展望了2026年值得关注的科学事件,涉及人工智能(AI)、基因编辑和太空探索等多个领域。中国计划于2026年发射嫦娥七号探测器,目标是在布满岩石与陨石坑、着陆难度极大的月球南极附近着陆。
2025-12-23 09:52
9月30日,中国科学院上海应用物理研究所原所长徐洪杰去世半个月后,一场以追思和战略研讨为主题的“务虚会”在研究所召开。
2025-12-23 09:47
加载更多