点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 乡村“跑腿员” 把过年的“牵挂”送回家

  • 精细服务让春运出行更顺畅

独家策划

推荐阅读
装上智能仿生手,截肢患者可以轻松拿起水杯喝水;高位截瘫患者用意念移动电脑光标,操控轮椅,指挥机器狗取外卖……
2026-02-13 09:50
凌晨2时,南昌西动车组运用一所检修库内灯光如昼。“接触网已断电,安全措施准备完毕,申请登顶!”确认许可后,国铁南昌局电务段南昌西车载设备车间工长曹准与工友一前一后登上动车组车顶,对北斗天线进行全面“体检”。
2026-02-13 09:45
近日,广西涠洲岛海域发生渔船撞击布氏鲸事件,鲸鱼受伤的画面令人揪心。虽然撞鲸的并非观鲸船,但这起事件也给正处于旺季的观鲸游敲响警钟——负责任地观鲸,有边界地亲近,人与自然和谐共生图景才能真正长久。
2026-02-13 09:43
核光钟通过真空紫外激光诱导原子核跃迁,具备更高精度与强抗干扰能力,且可实现便携化应用。但研制核光钟的道路上的一个核心瓶颈,是无法研制出能激发核跃迁的连续波激光光源。
2026-02-13 09:42
2021年,王勤团队开始研发低成本、适用于牧场环境的马匹体形自动测定设备。王勤团队搜集了全球90个马群体、近40个品种的基因组信息,构建了包含2000多个个体的参考面板——这是目前全球规模最大的马基因组参考数据库。
2026-02-13 09:36
一纸锦旗山水间,杏林春暖绿意长。
2026-02-12 11:01
金星与地球大小相近,同样诞生于太阳系内侧,却有着截然不同的命运。
2026-02-12 09:41
科技部十司相关负责同志解读《调查处理规定》。
2026-02-12 09:38
《细胞》封面:猕猴屏状核细胞分类与全脑联接图谱。在当前脑图谱大科学计划研究目标迈进绘制非人灵长类介观脑图谱的关键阶段,中国科学家仍在进一步集聚全球力量,持续扩大“朋友圈”。
2026-02-12 09:25
据悉,在战略上,植物星球计划还将整体提升全球生物多样性保护和实现碳中和的生态能力,构建植物科学领域全球大科学命题国际合作的新格局。
2026-02-12 09:17
马年将至,作为一种兼具力量与速度的动物,马正受到格外的关注。
2026-02-12 09:12
工业和信息化部等五部门近日印发《关于加强信息通信业能力建设支撑低空基础设施发展的实施意见》。加强监管能力体系建设,规划无人机专用号段,推动“一机一码一号”能力建设,探索标识解析在无人机领域的应用,形成无人机通信资源精细化管理。
2026-02-11 09:25
全球森林逐渐被快生树木主导,而稳定生态系统的慢生树种正在消失。“我们关注的是极为独特的物种,它们主要集中在生物多样性丰富、生态系统联系紧密的热带和亚热带地区。“此外,在现在和未来受到干扰的地区,非本地物种可能会加剧对光、水和养分的竞争,从而使本地树木更难生存。
2026-02-11 09:32
中国科学院动物研究所研究员王红梅带领的“灵长类胚胎发育的规律解析与体外模拟团队”,用27年的接力攻坚,把灵长类早期胚胎发育这个看不见、摸不着的“黑匣子”,变成了清晰可见的“生命剧本”。
2026-02-11 09:32
截至1月28日,“横竖都是世界第一”的贵州花江峡谷大桥累计接待游客突破130万人次,通行车辆超20万辆次,持续为区域发展注入新动能。大桥带来的发展溢出效应令人瞩目,而深入大桥肌理探查,你会发现,支撑起这座庞然大物的每根细钢丝,全部都是“中国造”。
2026-02-11 09:31
针对常见的饮食误区,杨爱明特别提醒,不建议采用“不吃主食”或“用水果代替主食”的方法来控制体重。对于肠胃功能较弱的人群,应避免过冷、过烫、过辣、过咸食物的刺激,切忌暴饮暴食,并尽量保持规律的进餐时间,以防加重原有胃肠问题。
2026-02-11 09:24
近日,市场监管总局(国家标准委)批准发布《中医体质分类与判定》推荐性国家标准。
2026-02-10 09:44
聚集相关企业300余家,机器人产业链规模超百亿元……北京亦庄,为何扎堆这么多机器人企业?
2026-02-10 09:42
“十四五”时期,我国全社会研发经费投入年均增长10%,研发经费投入强度提高0.44个百分点。
2026-02-10 09:41
日前,我科研团队在国际学术期刊《科学》发表论文《多尺度泛基因组图谱赋能混合倍性甘蔗的基因组解析》,为甘蔗高产优质育种提供了全新“基因资源地图”与核心分析工具。
2026-02-10 09:34
加载更多