点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 河北昌黎:田园民宿经济带动乡村旅游发展

  • 上海老年大学校园开放日活动精彩纷呈

独家策划

推荐阅读
当地时间24日,世界气象组织在日内瓦为中国工程院院士、中国气象局卫星气象专家许健民颁发第七十届国际气象组织奖,表彰他为天气预报、卫星气象事业以及气象业务服务作出的卓越贡献。
2026-06-26 09:28
来自英国伦敦国王学院与加拿大麦克马斯特大学衍生公司Block Biosciences等机构的科学家,正在研制一类靶向IMPDH2酶的候选药物。团队已设计并合成了数百种靶向IMPDH2的候选药物,正从中层层筛选最优化合物,力争尽快推向临床开发。
2026-06-26 09:26
6月25日,以“弘扬伟大抗疫精神 走好疾控新长征路”为主题的2026年“我和我的疾控故事”宣讲会在中国疾病预防控制中心举办。中国疾病预防控制中心性病艾滋病预防控制中心综合防治与政策室主任单多的故事,要从一双生了冻疮的手讲起。
2026-06-26 09:23
届链博会期间,贸促智库交流活动暨全球供应链报告与指数发布会在京举办。2018—2025年,促进指数、连接指数、创新指数、韧性指数均呈上行态势,表明全球供应链继续朝着更具韧性、更有效率、更富活力的方向发展。
2026-06-26 09:20
需要看到,保护耕地是推进乡村全面振兴、建设宜居宜业和美乡村的重要组成部分,广大农民是保护耕地的重要行动主体。
2026-06-26 09:19
卢宇彤介绍,“灵晟”依托国产高性能CPU、片上高带宽内存、高速互连网络、高吞吐存储、三维浮动正交、全液冷散热等多项核心技术创新打造。如今,面向科学、工程、产业各领域的大规模应用需求,“灵晟”提供多学科、全流程、多精度融合的科学智能应用生产级平台。
2026-06-25 09:36
日内瓦时间6月24日,中国工程院院士许健民从世界气象组织秘书长塞莱丝特·绍洛手中郑重接过第70届国际气象组织奖奖章。作为我国气象卫星事业的开拓者、见证者,许健民的身影,也是中国气象人实干创新、勇攀高峰的生动写照。
2026-06-25 09:33
在中国与泰国联合倡议下,世界贸易组织信息技术协定委员会23日举办专题研讨会,围绕信息技术协定支持人工智能就绪及包容性数字化转型展开探讨。
2026-06-25 09:32
如果它们真的是宇宙中的某种全新的事物,将改变我们对宇宙的认知,正如20世纪60年代类星体(星系中心进食的黑洞)的发现彻底革新了星系演化理论一样。”  无论直接坍缩理论是否正确,小红点都可能是超大质量黑洞的前身,后者构成了现代星系的核心。
2026-06-25 09:27
绿电直连之所以能够从概念走向实践,离不开技术进步与产业协同的共同托举。随着市场机制与技术体系不断成熟,绿电直连有望从单点示范走向规模化网络发展,成为产业绿色转型的“新动脉”。
2026-06-25 09:32
事实上,天气预报从来不是一成不变的“标准答案”,而是一门在复杂大气运动中不断逼近天气真相的科学。但我们必须正视:天气预报是一门预测科学,天气系统的复杂性,是全球气象领域共同面临的世界级难题。
2026-06-25 09:28
AI的介入,正在将控制“人造太阳”从一门依赖经验和试错的手艺,提升为一门可计算、可预测、可自主优化的科学。
2026-06-25 09:31
瑞士巴塞尔大学科学家研制出一款多功能纳米递药机器人,由推进模块和有效载荷模块构成,两种模块可重复使用,并能够自行组装。
2026-06-24 09:58
从“双链贯通”升级为“四链融合”,折射出中国推动科技创新与产业创新深度融合的有力步伐。
2026-06-24 09:48
该成果通过改善帕金森患者最难治疗的行走障碍,开启了个性化神经调控新篇章。
2026-06-24 09:47
国家卫生健康委23日印发《营养指导员服务技术指南(试行)》,针对营养指导员提出营养监测与调查、膳食营养状况评价、营养咨询与指导、营养配餐、营养科普教育等五方面工作的技术能力要求。
2026-06-24 09:46
国家粮食和物资储备局23日发布的最新数据显示,随着夏粮陆续收获上市,旺季收购正逐步展开。
2026-06-24 09:44
瑞典哥德堡大学和查尔姆斯理工大学研究团队在人工智能(AI)应用方面取得新成果,教会一款名为SmartTrap的AI系统使用光学镊子,从而让光镊实现了全自动运行。光镊是一种利用高度聚焦的激光束来操控微小物体的技术,其操作对象包括单个DNA分子、活细胞以及其他直径远小于发丝的微观粒子。
2026-06-23 09:40
“十五五”规划纲要提出,建立健全数据产权、流通利用、收益分配、安全治理等数据要素基础制度。
2026-06-23 09:38
上午9时,随着小浪底水利枢纽3个闸门徐徐升起,巨大水流喷涌而出,在空中形成层叠奔涌的排浪,轰鸣着冲向水面——2026年度黄河调水调沙正式启动。
2026-06-23 09:35
加载更多