点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 一汽解放:开足马力生产 力争新年“开门红”

  • 元旦假期海南离岛免税购物金额7.12亿元

独家策划

推荐阅读
面对市场机遇,产业链上市公司正加速卡位布局,以技术升级主动迎接L3级自动驾驶的商业化浪潮。
2026-01-05 09:13
接下来,我们计划测量能量范围更为宽泛的质子能谱,最终覆盖4个量级的能量区间。
2026-01-05 09:08
国务院关于促进科技成果转化工作情况的报告近日提请十四届全国人大常委会第十九次会议审议。报告显示,“十四五”以来,我国科技成果转化实现量质齐升,有效推动科技成果向现实生产力转化。
2026-01-05 03:30
棉花是重要经济作物,其中,陆地棉的纤维产量超过全球总量的95%,在我国栽培广泛。陆地棉原产于美洲,在驯化改良过程中经历多次基因组重排。
2026-01-05 03:30
想象一下,机器的“眼睛”不仅能像人眼一样广阔扫视,还能瞬间锁定关键目标,进行精细“凝视”……或许,这将不再是科幻情景。
2026-01-05 03:30
“深海一号”气田是中国迄今为止自主开发的作业水深最深、地层温压最高、勘探开发难度最大、天然气产能最大的海上气田,最大作业水深超1500米。
2026-01-04 09:00
细胞膜蛋白是药物作用的关键靶点,而核酸适体是一类能够高特异性、高亲和力结合靶标分子的寡核苷酸。
2026-01-04 08:59
意见提出到2030年电网资源优化配置能力有效增强,“西电东送”规模超过4.2亿千瓦,新增省间电力互济能力4000万千瓦左右,支撑新能源发电量占比达到30%左右,接纳分布式新能源能力达到9亿千瓦,支撑充电基础设施超过4000万台。
2026-01-04 08:58
全国农业农村厅局长会议日前在北京召开。会议指出,2025年,各级农业农村部门扎实有力推进乡村全面振兴和农业强国建设重点工作,
2026-01-04 02:05
农村冬闲时节,如今,大伙儿哪能闲得住?这正是提高农民技能水平、拓宽就业门路的好时候。 “我是一位被小奶娃和锅碗瓢盆‘拴住’的普通学员,曾经天天围着锅台转。
2026-01-04 02:05
在东西横跨1600公里的陇原大地上,一场以科技为引擎的农业变革正悄然发生。由甘肃省科协联合教育部门推动建成的62家科技小院,通过“产学研用”深度融合,
2026-01-04 02:05
持续涌现的AI应用场景,促进技术与产业协同发展,催生新业态、新模式、新动能。“高价值的AI场景创新,是创新要素在市场供需驱动下高效集聚、协同耦合的结果,不能脱离市场逻辑主观臆断。
2026-01-05 09:07
2024年,中国制造业顶压前行、向新向优,制造强国发展指数与德国和日本处于同一区间,进入全球制造强国第二阵列,成为继美国、德国、日本后第四个迈入全球制造强国行列的国家。
2025-12-31 08:56
突破性成果勾勒出我国高水平科技自立自强的清晰轨迹。
2025-12-31 08:58
“预计元旦期间,我国大部地区降水较弱,但中东部将出现显著降温,南方地区湿冷感明显。
2025-12-31 09:12
12月30日,中国气象局召开新闻发布会,专题发布《全球气象发展报告2025》(以下简称《报告》),呈现2024年全球气象发展态势。
2025-12-31 09:04
北斗三号全球卫星导航系统组网阶段的主要目标是把卫星建好,运行阶段的主要目标则是管好、用好。
2025-12-31 09:03
光明日报北京12月29日电 记者姚亚奇29日从国家林草局获悉,“十四五”期间,我国采取有力措施,加快推进林草种苗振兴,收集保存林草种质资源14.74万份,较“十三五”末增长180%,我国重要乡土树种草种和珍稀濒危林草种质资源得到有效保护。
2025-12-30 09:23
由自然资源部南海生态中心联合相关单位共同编制的《黄岩岛珊瑚礁生态调查报告》29日在京发布。报告基于船舶走航、潜水调查、卫星航空遥感、原位观测等方式,结合历史数据分析,对黄岩岛珊瑚礁生态状况进行了调查评估。
2025-12-30 09:23
松花江畔,风机和光伏正齐齐出力,一端是新能源电力源源不断产出;另一端,化工装置稳定运行,“绿色石油”涌流而出。
2025-12-30 09:37
加载更多