点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:源2.0-M32大模型发布4bit/8bit量化版
首页> 科技频道> 互联网 > 正文

源2.0-M32大模型发布4bit/8bit量化版

来源:光明网2024-08-24 10:52

  近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

  源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型发布4bit/8bit量化版

  源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

  模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

  源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

  评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

  源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。(科文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 启程,回家!

  • 秦巴山村“蝶变” 绘就振兴画卷

独家策划

推荐阅读
在人工智能(AI)和大数据时代背景下,高性能计算的战略地位已可与高能望远镜、同步辐射光源和粒子加速器等重大科研基础设施相提并论
2026-02-03 14:09
2月1日,农业农村部发布的《农产品质量安全承诺达标合格证管理办法》(以下简称《办法》)正式施行,我国农产品全面启用新版“身份证”——农产品质量安全承诺达标合格证。
2026-02-03 09:48
近日,记者从中国科学院空天信息创新研究院(以下简称空天院)获悉,该院成功开展超百G星地激光通信业务化应用实验,通信速率达到120吉比特每秒(Gbps)。”
2026-02-03 09:40
就像为一段混乱的进程找到慢放键,中国科学家在量子世界实现了一项关键控制。在量子世界中,系统在外部驱动下通常会逐步丢失初始信息,最终达到混乱的热平衡状态,该过程被称为“热化”。
2026-02-03 09:37
科技部日前发布的2024年度全国科普统计数据表明:我国科普人员队伍规模持续壮大,2024年全国科普专、兼职人员数量达221.27万,比2023年增长2.62%,其中,科普专职人员29.70万人,科普兼职人员191.57万人。
2026-02-03 09:36
2月2日是第30个“世界湿地日”。我国持续开展湿地保护修复,累计实施3800多个项目,新增和修复湿地面积100余万公顷;实施红树林保护修复和互花米草防治专项行动,累计营造红树林9200公顷,除治互花米草9.73万公顷。
2026-02-03 09:21
X光片显示的一名33岁患者的新肺(左)和旧肺。在这项研究中,Bharat表示,他的团队设计的这套人工肺系统,能够保持血液平稳且持续地流向心脏,从而降低了因血栓引发心脏病的风险。
2026-02-02 09:52
孙纯告诉《中国科学报》,时间规划的“艺术”在于,如何平衡优先和重大项目、自由观测申请项目以及可能突然出现的机遇型项目,让所有科研用户都能满意。再过十余天,孙纯的家人就会到基地与她团聚,而雷政今年终于可以回到遵义老家,与亲友相聚。
2026-02-02 09:51
通过研究月壤,我们可以进行优化模拟,从而更好服务后续探月任务。
2026-02-02 09:50
作者:王黎萤(浙江工业大学中国中小企业研究院副院长)万劲波(中国科学院科技战略咨询研究院研究员)  标准是重要基础性制度,对构建现代化产业体系、建设全国统一大市场等具有重要作用。
2026-02-02 09:37
1日,“砼真砼知”混凝土材料科学大模型在江苏南京首发。中国工程院院士、东南大学首席教授刘加平介绍:“该模型推动混凝土材料研发迈入数据驱动的‘第四范式’,为工程材料领域破解数据、算法、模型关键难题提供了标杆方案,将加速建材产业低碳转型与高质量发展。
2026-02-02 09:36
在分子世界中,有一种化学键如同生命的“缝合线”——它将氨基酸串成蛋白质,把药物分子编织成救命良方,这就是酰胺键。利用这项变革性的生物催化方法,已成功实现了多款明星药物分子的高效、绿色生物生产。
2026-02-02 09:35
为揭示东亚古人类的技术智慧与演化脉络提供了关键证据。
2026-01-30 09:37
中国气象局29日发布《2025年中国风能太阳能资源年景公报》。公报显示:2025年,全国风能资源为正常年景,全国太阳能资源总体为偏小年景。
2026-01-30 03:30
想象一下手电筒的光:柔和而四散,照亮着前方。激光,就像一束训练有素的光——所有光粒子步调一致,朝着同一个方向前进,能量高度集中。这种特性让激光能完成普通光做不到的“精细活”,从超市扫码器到医院手术刀,从光纤通信到舞台灯光秀,背后都有它的身影。
2026-01-30 03:30
激光技术被誉为20世纪“四大科技发明”之一。聚焦真空紫外非线性光学晶体材料领域基础研究和关键核心技术,中国科学院新疆理化技术研究所(以下简称“新疆理化所”)潘世烈团队成功研制出氟化硼酸铵(ABF)晶体,首次实现直接倍频真空紫外激光158.9纳米输出,创造了该领域世界最短输出波长纪录。相关成果于29日在国际学术期刊《自然》发表。
2026-01-30 03:30
开慧镇党委书记杨骏介绍,依托科技小院,全镇形成科技养殖示范点5处、示范户24户,带动村民增收1800余万元,并发展起梅花鹿、鹌鹑等特色养殖产业。在博乐市区西南方向四五公里处的荒漠化草原上,科技小院还开辟了200多亩的试验场,将这里作为科研攻关的第一线。
2026-01-30 09:17
科研人员将种子放入冷库储存。例如,千年种子库与中国西南野生生物种质资源库就通过人员交流、技术培训、资源备份、联合研究等,共同推进生物多样性保护。
2026-01-30 09:16
寒冬时节,云南省元江哈尼族彝族傣族自治县龙潭社区番荔枝种植基地里却热火朝天,一颗颗“冬日限定”的番荔枝被采摘、装箱,销往全国各地。
2026-01-30 09:14
“相对拥有百年历史的《科学》,《工程》才走过第一个十年。未来十年,我们要争取与世界顶级刊群比肩。”周济表示,这条路需要时间,以及学术评价观念、出版生态与国际化运营能力的协同推进。
2026-01-29 02:45
加载更多