点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 上海市档案馆展出隐蔽战线工作者红色珍档

  • “深江1号”盾构机掘进突破4000米

独家策划

推荐阅读
“激光不是自然光,它是人类创造的‘最准的尺’‘最利的刀’,更是能为人类需求精准调光的‘魔法师’。”1月6日,科学家精神百场讲坛在扬州大学开讲,中国科学院院士、天津大学教授姚建铨向现场听众分享了自己60年的科研历程与心得。
2026-01-07 02:30
以前医生判断大脑是否健康,需要进行磁共振检查,这个检查结果用的是西方人群的参考标准。
2026-01-07 02:30
硫化氢气味如臭鸡蛋,在天然气开采、炼油、煤化工中大量产生。它不仅有毒,更是形成酸雨的“元凶”之一。据统计,我国每年待处理的硫化氢约80亿立方米,全球规模更是巨大。如何安全、彻底地处理它,一直是工业界面临的巨大挑战。
2026-01-07 02:30
从生态环境部获悉,日前,南京环境科学研究所秦卫华、李中林、王涛研究团队在《布拉格国家昆虫博物馆馆报》上发表研究成果——西藏吉隆发现猎蝽科猛猎蝽属新物种吉隆猛猎蝽,我国青藏高原生物多样性数据库再添新成员。
2026-01-07 02:30
“人类工程与大自然的完美融合!”不久前,贵州花江峡谷大桥刚刚建成通车便火遍全网,各地游客纷至沓来,只为感受新晋世界第一高桥的壮观雄伟。
2026-01-07 02:30
“一张网”的构建是我国测绘地理信息事业转型升级的生动实践。
2026-01-06 09:53
具身智能作为人工智能与机器人科学交叉的前沿领域,是新一轮产业变革的技术引擎。
2026-01-06 02:45
我国首次航天员洞穴训练日前在重庆市武隆区圆满结束,28名航天员参加了这次训练。
2026-01-06 02:45
近日,国务院办公厅印发《关于加快场景培育和开放推动新场景大规模应用的实施意见》,意见明确要求构建高水平矿山安全生产智能化应用场景。
2026-01-06 03:05
拔尖创新人才的培养成长,与平台和环境密切相关。记者注意到,与长期以来以竞赛选拔为主导的“关门培养”模式不同,近年来越来越多的中学、高校开始设立新型实验班。这些实验班面向更多学子敞开大门,以综合素质培养为落脚点实施个性化育人,为拔尖创新人才成长发展开辟了新空间。
2026-01-06 03:05
我是一名铁路机车调试工,在中国中车株洲电力机车有限公司干了33年,摸过超过一千万根线缆,听过约十万次受电弓升起的声音。这些年,我带过不少刚毕业的学生,也面试过很多从院校走出来的年轻人。他们理论扎实、认真仔细,但一上手调试真车,常常“当场犯懵”。我发现一个问题:学校教的和现场用的,中间隔着一道“看不见的墙”。
2026-01-06 03:05
面对市场机遇,产业链上市公司正加速卡位布局,以技术升级主动迎接L3级自动驾驶的商业化浪潮。
2026-01-05 09:13
接下来,我们计划测量能量范围更为宽泛的质子能谱,最终覆盖4个量级的能量区间。
2026-01-05 09:08
国务院关于促进科技成果转化工作情况的报告近日提请十四届全国人大常委会第十九次会议审议。报告显示,“十四五”以来,我国科技成果转化实现量质齐升,有效推动科技成果向现实生产力转化。
2026-01-05 03:30
棉花是重要经济作物,其中,陆地棉的纤维产量超过全球总量的95%,在我国栽培广泛。陆地棉原产于美洲,在驯化改良过程中经历多次基因组重排。
2026-01-05 03:30
想象一下,机器的“眼睛”不仅能像人眼一样广阔扫视,还能瞬间锁定关键目标,进行精细“凝视”……或许,这将不再是科幻情景。
2026-01-05 03:30
“深海一号”气田是中国迄今为止自主开发的作业水深最深、地层温压最高、勘探开发难度最大、天然气产能最大的海上气田,最大作业水深超1500米。
2026-01-04 09:00
细胞膜蛋白是药物作用的关键靶点,而核酸适体是一类能够高特异性、高亲和力结合靶标分子的寡核苷酸。
2026-01-04 08:59
意见提出到2030年电网资源优化配置能力有效增强,“西电东送”规模超过4.2亿千瓦,新增省间电力互济能力4000万千瓦左右,支撑新能源发电量占比达到30%左右,接纳分布式新能源能力达到9亿千瓦,支撑充电基础设施超过4000万台。
2026-01-04 08:58
全国农业农村厅局长会议日前在北京召开。会议指出,2025年,各级农业农村部门扎实有力推进乡村全面振兴和农业强国建设重点工作,
2026-01-04 02:05
加载更多