点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!
首页> 科技频道> 综合新闻 > 正文

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

来源:光明网2025-12-24 17:26

  当前,全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本”不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。

  在此背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次击穿至1元/每百万token。这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。

  浪潮信息首席AI战略官刘军表示,当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的必然趋势,现有成本水平仍难支撑AI的普惠落地。

  未来,AI要真正成为如同“水电煤”般的基础资源,token成本必须在现有基础上实现数量级跨越,成本能力将从“核心竞争力”进一步升级为“生存入场券”,直接决定AI企业在智能体时代的生死存亡。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  浪潮信息首席AI战略官刘军

  智能体时代,token成本就是竞争力

  回顾互联网发展史,基础设施的“提速降费”是行业繁荣的重要基石。从拨号上网以Kb计费,到光纤入户后百兆带宽成为标配,再到4G/5G时代数据流量成本趋近于零——每一次通信成本的显著降低,都推动了如视频流媒体、移动支付等全新应用生态的爆发。

  当前的AI时代也处于相似的临界点,当技术进步促使token单价下滑之后,企业得以大规模地将AI应用于更复杂、更耗能的场景,如从早期的简短问答,到如今支持超长上下文、具备多步规划与反思能力的智能体……这也导致单任务对token的需求已呈指数级增长。如果token成本下降的速度跟不上消耗量的指数增长,企业将面临更高的费用投入。这昭示着经济学中著名的“杰文斯悖论”正在token经济中完美重演。

  来自多方的数据也有力佐证了token消耗量的指数级增长趋势。火山引擎最新披露的数据显示,截至今年12月,字节跳动旗下豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时的日均调用量增长达417倍;谷歌在10月披露,其各平台每月处理的token用量已达1300万亿,相当于日均43.3万亿,而一年前月均仅为9.7万亿。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  谷歌公布其token处理量变化

  当使用量达到“百万亿token/月”的量级时,哪怕每百万token成本只下降1美元,也可能带来每月1亿美元的成本差异。刘军认为:“token成本就是竞争力,它直接决定了智能体的盈利能力。要让AI真正进入规模化普惠阶段,token成本必须在现有基础上继续实现数量级的下降。”

  深挖token成本“暗箱”:架构不匹配是核心瓶颈

  当下,全球大模型竞赛从“盲目堆算力”转向“追求单位算力产出价值”的新阶段。单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响,但不可否认的是,现阶段token成本80%以上依然来自算力支出,而阻碍成本下降的核心矛盾,在于推理负载与训练负载截然不同,沿用旧架构会导致算力、显存与网络资源难以同时最优,造成严重的“高配低效”。

  一是算力利用率(MFU)的严重倒挂。训练阶段MFU可达50%以上,但在推理阶段,特别是对于追求低延迟的实时交互任务,由于token的自回归解码特性,在每一轮计算中,硬件必须加载全部的模型参数,却只为了计算一个token的输出,导致昂贵的GPU大部分时间在等待数据搬运,实际MFU往往仅为5%-10%。这种巨大的算力闲置是成本高企的结构性根源。

  二是“存储墙”瓶颈在推理场景下被放大。在大模型推理中,随着上下文长度的增加,KV Cache呈指数级增长。这不仅占用了大量的显存空间,还导致了由于访存密集带来的高功耗。这种存算分离不仅带来数据迁移功耗和延迟,还必须配合使用价格高昂的HBM,已经成为阻碍token成本下降的重要瓶颈。

  三是网络通信与横向扩展代价愈发高昂。当模型规模突破单机承载能力时,跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟,通信开销可能占据总推理时间的30%以上,导致企业被迫通过堆砌更多资源来维持响应速度,推高了总拥有成本(TCO)。

  对此,刘军指出,降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统:把推理流程拆得更细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,把每张卡的负载打满,让“卡时成本”更低、让“卡时产出”更高。

  基于全新超扩展架构,百万Token推理低至1元

  当前主流大模型的token成本依然高昂。以输出百万token为例,Claude、Grok等模型的价格普遍在10-15美元,国内大模型虽然相对便宜,也多在10元以上。在天文数字级别的调用量下,如此高的token成本让大规模商业化应用面临严峻的ROI挑战。要打破成本僵局,必须从计算架构层面进行根本性重构,从而大幅提升单位算力的产出效率。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  主流LLM的百万token价格

  (注:9月26日(AICC2025大会当日)数据,9月29日DeepSeek发布V3.2 Exp价格降为3元/每百万Token)

  为此,浪潮信息推出元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,推理成本首次击破1元/每百万token,为智能体突破token成本瓶颈提供极致性能的创新算力系统。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  元脑HC1000超扩展AI服务器

  刘军表示:“我们看到原来的AI计算是瞄着大而全去建设的,五脏俱全,各种各样的东西都在里面。但是当我们聚焦降低token成本这一核心目标之后,我们重新思考系统架构设计,找到系统瓶颈,重构出一个极简设计的系统。”

  元脑HC1000创新设计了DirectCom极速架构,每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟;计算通信1:1均衡配比,实现全局无阻塞通信;全对称的系统拓扑设计,可以支持灵活的PD分离、AF分离方案,按需配置计算实例,最大化资源利用率。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  全对称DirectCom极速架构

  同时,元脑HC1000支持超大规模无损扩展,DirectCom架构保障了计算和通信均衡,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,并且通过对大模型的计算流程细分和模型结构解耦,实现计算负载的灵活按需配比,单卡MFU最高可提升5.7倍。

智能体上演“生死竞速”,浪潮信息刘军:“1元/每百万token”还远远不够!

  超大规模无损扩展

  此外,元脑HC1000通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,实现KV Cache传输和All to All通信流量的智能调度,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。

  刘军表示,当前“1元/每百万token”还远远不够,面对未来token消耗量的指数级增长,若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新。这也要求整个AI产业的产品技术创新,要从当前的规模导向转为效率导向,从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化,这将是未来的发展方向。(战钊)

[ 责编:田新宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 北京:多元普惠托育 托起婴幼儿健康

  • 清明时节 不负花期

独家策划

推荐阅读
历时多年攻关,刘河生带领团队不断改进脑功能区定位技术,实现快速精准绘制个体脑图,并研发出可无创干预脑区功能的设备,在帕金森等疾病治疗研究中取得重大进展。
2026-04-02 10:11
我国智能航运发展现状如何?“十五五”时期如何迈向国际先进水平?记者采访了交通运输部海事局及相关企业。
2026-04-02 10:07
科技创新是发展新质生产力的核心要素,加强原始创新和关键核心技术攻关,是抢占科技制高点、实现高水平科技自立自强的根本所在。
2026-04-02 10:04
近日,国家医保局发布《医疗保障基金使用监督管理条例实施细则》,于2026年4月1日起正式施行。
2026-04-02 10:03
国家卫健委和国家中医药局1日联合印发《关于开展基层医疗卫生机构医疗质量改善三年行动(2026—2028年)的通知》,推进基层医疗质量提升,推动实现分级诊疗“基层首诊”落地。
2026-04-02 10:01
人与自然和谐共生是中国式现代化的重要特征之一,守好碧海银滩,构建人海和谐的海洋生态环境是中国式现代化的题中应有之义。
2026-04-01 09:45
2021年长江十年禁渔实施以来,禁渔秩序总体平稳,退捕渔民生计有效保障,水生生物资源衰退趋势得到决定性扭转,长江水生生物完整性指数稳步提升,取得阶段性明显成效。
2026-04-01 09:44
“过去雷达网建设主要解决‘有没有’的问题,现在AI让这张网从‘能探测’升级为‘会思考’。”在张兴赢看来,“AI正在成为工程的‘第二大脑’。”
2026-04-01 09:43
硒是人体必需的微量矿质营养素。然而,我国约7亿人口存在硒摄入不足。
2026-04-01 09:42
强对流天气的形成是水汽条件、不稳定状态的大气层结构、地形等多种条件协同作用的结果,包括雷暴、短时强降水、大风、冰雹等天气现象,具有影响快、强度强、致灾性强的特点。
2026-04-01 09:39
3月30日,世界数据组织正式成立并落户北京,理事长由中国科学院院士谭铁牛担任。这不仅是对谭铁牛个人学术成就的认可,更是国际社会对中国数据发展和治理能力的充分肯定,是中国科学家提升全球科技治理话语权的生动缩影。
2026-03-31 10:23
教育部30日印发《校园食品安全“十必须”》《学校食堂工作人员“十不准”》,进一步筑牢校园食品安全防线,明确中小学、幼儿园食堂不得制售冷荤类食品、生食类食品、冷加工糕点,不得加工制作四季豆、鲜黄花菜、野生蘑菇、发芽土豆等高风险食品。
2026-03-31 10:22
30日19时00分,力箭二号遥一运载火箭在东风商业航天创新试验区发射升空,将搭载的新征程01卫星、轻舟初样试飞船和天视卫星01星顺利送入预定轨道,发射任务取得圆满成功。
2026-03-31 10:17
从政策精准发力到科技赋能支撑,从风险保障兜底到绿色理念引领,每一分努力都在为全年粮食丰收积蓄力量。
2026-03-31 10:11
交通运输部、工业和信息化部、国务院国资委、市场监管总局近日联合印发《智能航运2030行动计划》,明确“十五五”期间我国智能航运发展的总体要求、重点任务和保障措施。
2026-03-31 10:10
新当选的首届理事会召开第一次会议,选举产生组织负责人,审议通过组织重要制度和规定,标志着世界数据组织完成组建将正式投入运行。
2026-03-30 14:22
截至目前,河南5300万亩高标准农田配套了数字设施,无人机飞防作业面积突破4000万亩次,AI预判让春管从“盲目应对”转向“精准发力”。在陇原大地甘肃,AI预判延伸至春耕全链条,从良种布局到苗期管护已实现全程可控。
2026-03-30 09:38
3月27日,在北京国际科幻与未来产业博览会上,他山公司的人形机器人在展示原子动作数据采集平台精细操作场景。
2026-03-30 09:35
29日,中国科学技术发展战略研究院在2026中关村论坛年会上发布《国家创新指数报告2025》,从创新资源、知识创造、企业创新、创新绩效、创新治理5个方面构建指标体系,对世界60个国家创新能力开展评价。
2026-03-30 09:32
从供给侧层面来看,主产区作物长势稳健,设施化种植规模持续扩大,春菜上市更早、供给周期更长,市场有效供给能力稳步提升。
2026-03-30 09:31
加载更多