点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 【文物里的抗战记忆】枪身斑驳将星陨:左权将军的铮铮铁骨

  • 习主席的话官兵们记住了!

独家策划

推荐阅读
植物在漫长的适应性进化过程中,催生出丰富多元的物种谱系。9月2日,《细胞》在线发表了华中农业大学教授宁国贵团队的一项研究成果,该研究揭示了月季香气基因起源的新机制。
2025-09-05 10:06
今年8月,中央网信办、国家卫生健康委等四部门联合发布《关于规范“自媒体”医疗科普行为的通知》,为医疗科普立了“规矩”。
2025-09-05 10:02
数字经济时代,算力是如同水、电一样重要的基础资源。我国算力发展情况如何?未来着力点在哪儿?
2025-09-05 09:54
算法技术的赋能强化了传统意识形态风险,算法的自我进化制造了意识形态黑箱,要求我们积极探索和优化治理智能算法技术意识形态风险的新路径。
2025-09-05 09:48
日前,中国科学技术大学孙道远教授、毛竹教授团队联合国外学者在行星科学研究领域取得重大进展,该研究首次在地球以外的行星中确认了固态内核的存在。
2025-09-05 09:41
据世界气象组织2日发布的厄尔尼诺/拉尼娜现象最新通报,拉尼娜现象有可能从今年9月起回归并影响未来数月的全球天气和气候状况。拉尼娜现象是指赤道太平洋东部和中部海水大范围持续异常变冷的现象,而厄尔尼诺现象则是指太平洋赤道海域海水大范围持续异常升温的现象。
2025-09-04 09:47
这种说法缺乏科学依据。
2025-09-04 09:44
正确掌握储存技巧和使用习惯,才能发挥冰箱的功能,保障家人饮食健康。
2025-09-04 09:39
这不是惊悚小说,也不是玄幻剧,而是世代生活在海边的人们,和海洋巨兽的别样相遇——这是鲸和海豚的骨头。从意外搁浅偶然获得,到渔业生产相对频繁打捞,闽南的“新鱼骨庙”(阴庙)呈现出和历史上的鱼骨庙截然不同的样貌。
2025-09-04 09:37
9月3日,某潜艇支队某艇员队组织收看阅兵仪式直播,铿锵有力的步伐、全新亮相的装备、转型跨越的成就,让他们动容,更让他们振奋。南昌舰的入列,标志着海军驱逐舰实现由第三代向第四代的跨越,首次突破万吨级设计,在航母编队体系作战中发挥重要作用。
2025-09-04 09:32
日前,我国科学家近日成功研制出超宽带光电融合集成系统,首次实现全频段、灵活可调谐的高速无线通信,有望为未来更畅通可靠的6G无线通信提供保障。为此,北京大学、香港城市大学组成的联合研究团队,历经4年,自主研发出超宽带光电融合集成系统。
2025-09-03 10:01
近日,由中国农业科学院烟草研究所牵头完成的“基于耐盐植物和土壤调理剂的滨海盐碱地高效利用技术创制与应用”项目获2024年度青岛市科技进步奖二等奖,为滨海盐碱地的综合治理与高效利用提供了新方案。基于各项研究,团队开发了4种抗盐剂、2种盐碱地土壤调理剂等盐碱地培肥改良系列产品,为盐碱地快速培肥和障碍消减提供了有力支撑。
2025-09-03 10:01
9月1日起,由工业和信息化部等五部门联合修订的强制性国家标准《电动自行车安全技术规范》(GB 17761—2024)正式实施。新国标进一步增强了电动自行车的智能化功能,增加了北斗定位、通信和动态安全监测功能。
2025-09-03 10:00
作为第十五届全国运动会增设的群众赛事项目,被称为“空中F1”的无人机竞速备受瞩目,该项赛事决赛举办地深圳近日也掀起了无人机竞速热潮,市民和游客在公园里就能过一把“飞行瘾”。据介绍,深圳中心公园位于深圳核心区域,无论是深圳还是粤港澳大湾区其他城市的无人机爱好者,都能轻松快捷到达这里。
2025-09-03 10:00
油菜、白菜、甘蓝、萝卜是大众最熟悉的十字花科作物,也是食用油和蔬菜的主要来源,然而它们都受到同一种毁灭性病害——根肿病的威胁。基于GSL5功能研究和团队所创制的材料,他们还揭示了有趣的病菌与寄主的互作关系,即病菌致病和寄主抗病反应机制。
2025-09-03 10:00
点击羽绒服胸前的按钮,2秒即可速热,实现四档温度调节……1日,在哈尔滨举行的第七届中国国际新材料产业博览会现场,一款造型时尚的智能温控羽绒服吸引不少观展者驻足围观。
2025-09-02 10:23
当地时间9月1日,世界知识产权组织发布最新报告显示,今年的全球创新指数(GII)集群研究将风险资本交易活动作为一项新指标。全球创新指数集群排行榜于2017年创设,通过三项核心指标,识别世界级创新活动在当地的集中程度。
2025-09-02 10:21
强制性国家标准《电动自行车安全技术规范》昨起实施。为保障新国标在本市顺利推行,近日,市市场监管局组织召开在京销售电动自行车生产经营企业约谈指导会。为保障新国标平稳落地实施,本市市场监管部门将强化监督抽检,保障本市电动自行车产品质量安全。
2025-09-02 10:18
会空翻、格斗,能叠衣、调饮,善聊天、“思考”……前不久举行的2025世界机器人大会上,各类机器人本领“进化”、各显神通,展现了人工智能的巨大潜力。如今,从旅游出行的智能助手,到工厂培训的“最强大脑”,再到装备升级的有力支撑,人工智能扮演着越来越重要的角色。
2025-09-02 10:15
零碳园区的建设,对于推动我国经济社会发展全面绿色转型具有重要意义。节能降碳,光靠“外套保温”不够,在园区地上、地下,还有“血液循环”系统来“保持恒温”。
2025-09-02 10:15
加载更多