点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息刘军:智能体时代,速度就是金钱
首页> 科技频道> 综合新闻 > 正文

浪潮信息刘军:智能体时代,速度就是金钱

来源:光明网2025-11-06 10:04

  “在AI超节点系统的设计上,不应该再依照惯性思维,过分追求规模,而是应该从客户视角出发,把token交互速度作为关键衡量指标,这是智能体时代AI超节点的核心商业价值。”这是浪潮信息首席AI战略官刘军近期接受采访时,反复强调的一点。

浪潮信息刘军:智能体时代,速度就是金钱

  浪潮信息首席AI战略官刘军

  智能体时代,“快”不再是可选项

  规模扩展定律(Scaling Law)一直是驱动大模型智能持续增长的底层逻辑,推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入,能显著提升模型的推理能力,而以推理能力为代表的复杂思维的涌现,是构建智能体应用的基础。另一方面,以DeepSeek为代表的开源大模型极大降低创新门槛,加速了智能体产业化的到来。

浪潮信息刘军:智能体时代,速度就是金钱

  Scaling Law驱动智能持续进化

  刘军指出,“智能体产业化的核心三要素是能力、速度和成本。其中,token交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中,基本上按照大概50毫秒的水平,就是每秒输出20个token,人的阅读速度就能跟得上。但很多人还没意识到,未来的智能体时代会更多出现机器与机器之间的交互场景,对于智能体之间的交互而言,这个速度远远不够,比如说直播电商、量化交易、欺诈防控等特定业务场景中,对token生成速度的最低要求都是10毫秒以下。”

  以高强度、实时互动的直播电商场景为例。2024年底,某知名直播电商平台进行了专家组合智能体的A/B实验,实验组部署了经过深度优化的智能体,对照组则使用未经优化的标准版本智能体,优化后的智能体平均响应延迟相较于对照组降低了38%。实验结果表明,部署了低延迟智能体的直播间,其商品交易总额(GMV)平均提升了11.4%,同时用户的复购率也取得了7.8%的显著增长。

  38%的延迟降低,并非提升了智能体回答内容的质量,而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的“黄金窗口”期内。在直播电商这类场景中,用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在“思考”时,用户的注意力可能已经转移,或者主播已经开始介绍下一件商品,从而错失了最佳的销售转化窗口。

  “在智能体时代,快,不再是可选项,而是商业成功的刚性约束。”刘军强调,“只有当智能体的响应快于业务决策的窗口期,快于用户耐心消逝的临界点……AI才能真正成为核心生产力。”

  token交互速度重塑AI算力价值评估体系

  事实上,对于token交互速度的考量正在重构AI算力系统的价值评估体系。最近广受关注的InferenceMax™ 开源AI基准测试,正在创造一种动态追踪模型更迭的算力评估体系,试图在真实AI推理环境下衡量各类AI算力系统的综合效率。在这一基准测试中,token生成速度被列为最重要的一项衡量指标。

浪潮信息刘军:智能体时代,速度就是金钱

  SemiAnalysis InferenceMAX™ 开源AI基准测试

  横轴:交互速度(Interactivity,单位:tok/s/user);纵轴:单位GPU token吞吐量(Token Throughput per GPU,单位:tok/s/gpu)

  同时,清华大学与中国软件评测中心(CSTC)对20余家主流大模型服务提供商的综合表现进行了全面评估,联合发布了大模型服务性能排行榜,明确指出延迟指标是用户体验的核心,直接决定用户留存,是平台差异化竞争的首要技术门槛。因此,速度同样也成为了大模型API服务提供商的核心竞争力。当前,全球主要大模型API服务商的token生成速度,基本维持在10~20 毫秒左右,而国内的生成速度普遍高于30毫秒。

浪潮信息刘军:智能体时代,速度就是金钱

  全球大模型API服务商DeepSeek Token生成速度

  元脑SD200迈入“10毫秒时代”

  要实现更低延迟的token生成能力,必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。

  浪潮信息对元脑SD200超节点AI服务器进行了大量的软硬件协同创新与优化,实现DeepSeek R1大模型单token生成速度低至8.9毫秒,带动国内AI服务器token生成速度率先进入“10毫秒时代”。

  对于为何能在token生成速度上实现如此出色的性能,刘军表示,智能体中各个模型之间的交互,很多时候通信数据包并不是很大,超高的带宽会出现浪费,“就像是从a地到b地修了16车道的高速公路,但是车辆在16车道上只跑了很短的距离,反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点,就是解决车辆上高速和下高速的卡点问题,让车辆直通上来,直通下去。”

  元脑SD200采用了独创的多主机3D Mesh系统架构,实现单机64路本土AI芯片高密度算力扩展,原生支持开放加速模组OAM,兼容多元AI芯片。同时,元脑SD200通过远端GPU虚拟映射技术创新,突破跨主机域统一编址难题,实现显存统一地址空间扩增8倍,单机可以提供最大4TB显存和64TB内存,为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计,元脑SD200单机即可承载4万亿单体模型,或者同时部署由多个万亿参数模型构成的智能体,多模协作执行复杂任务。

浪潮信息刘军:智能体时代,速度就是金钱

  元脑SD200创新多主机3D Mesh系统架构

  互连协议的设计是元脑SD200实现极低通信延迟的关键,浪潮信息做了大量的通信优化和技术创新,如采用极致精简的3层协议栈,并原生支持 Load/Store等“内存语义”,让GPU可直接访问远端节点的显存或主存,将基础通信延迟缩短至百纳秒级;另外Open Fabric原生支持由硬件逻辑实现的链路层重传,重传延迟低至微秒级,特别是分布式、预防式的流控机制,实现全局任务均在发送前确保接收端有能力接收,从根本上避免了拥塞和丢包。

浪潮信息刘军:智能体时代,速度就是金钱

  元脑SD200极低Latency通信

  除了硬件方面的创新,浪潮信息也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征,完成了通信库、计算框架、PD分离策略等多方面的优化,大幅提升了DeepSeek、Kimi等大模型的推理输出速度。通信库层面,针对Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了与元脑SD200深度适配的通信算法;框架层面,浪潮信息完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟;在推理阶段,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。

  实测数据显示,元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型,当输入长度为4096、输出长度为1024时,单用户token生成达到112 tokens/s,每token生成时间仅为8.9ms,率先实现国内AI服务器token生成速度低于10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

  未来十年AI经济的增长边界,从某种意义而言,将取决于整个行业在算法、软件和硬件层面协同攻克延迟挑战的能力。“速度就是金钱”不仅是一种新的商业主张,更是驱动下一代人工智能增长的核心经济逻辑。浪潮信息将面向智能体产业化需求,持续以架构创新激发产业创新活力,让AI成为百行千业的生产力和创新力。(记者 战钊)

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西康高铁沿线车站挂牌

  • 中国妇女事业发展成就图片展在莫斯科举行

独家策划

推荐阅读
“遥感是人们在距离和感官上的延伸,是认知地球、探查资源、监测环境的重要技术手段。本次活动由全国科学道德和学风建设宣讲教育领导小组主办,中国科协科学技术传播中心、湖南省科学技术协会、中南大学、光明网联合承办。
2026-03-20 09:42
每年春季,花粉过敏会给不少人带来困扰。该检测试剂盒采用微量血清特异性洋白蜡花粉过敏原IgE定量检测,用以辅助诊断,成为目前用于花粉症精准诊断的主要方法。
2026-03-20 09:39
3月18日,记者从新疆电力交易中心有限公司获悉,自2010年启动“疆电外送”以来,新疆累计外送新能源电量已达3043.6亿千瓦时,约占总外送电量的三成。
2026-03-20 09:39
吕小康:从现实语义上看,情感AI既指能够识别、理解、模拟和响应人类情感的人工智能技术,也指基于这类技术设计和开发的情感智能体。吕小康:为引导青年群体健康使用情感AI,还需要进一步加强协同治理,培育积极有益的陪伴型人工智能应用环境。
2026-03-20 09:36
据3月17日农情调度,全国早稻育秧已三成半,同比略快。据介绍,北方冬小麦当前的田管重点是继续促进弱苗转化升级,抓好病虫防控,防范春旱、倒春寒、干热风等灾害。“近日国家启动投放1000余万吨氮磷及复合肥储备,作为国家化肥储备重要承储主体,全国供销合作社系统农资企业积极按要求将储备化肥及时集中投放市场,稳定市场价格。
2026-03-20 09:36
小时候我们背过一句话:万物由原子组成。这一路走来,从质子的异常,到夸克模型的提出,再到量子色动力学和标准模型的建立,人类把物质拆解到了17种基本粒子的层级。曾获国家六部委回国人员成就奖、德国洪堡研究奖、吴有训物理奖、中国科学院优秀研究生导师奖。
2026-03-20 09:35
吴晓民(右一)团队在野外工作。藏羚羊曾广泛分布于高原全境,其漫长的演化史与复杂的种群波动,始终是全球动物保护与演化生物学领域关注的焦点。研究团队还通过生态位模拟,锁定了藏羚羊的生命庇护所——青藏高原北部的可可西里、羌塘高原等区域。
2026-03-19 10:11
通知明确,各城市群应优先选择具备条件的燃料电池汽车、绿色氨醇、氢基化工原料替代、氢冶金以及掺氢燃烧等应用场景开展试点,积极探索氢能创新应用场景,形成“1个燃料电池汽车通用场景+N个工业领域应用场景+X个创新应用场景”的氢能综合应用生态。通知要求,氢能综合应用试点以城市群为主体开展申报,城市群应立足自身资源条件,因地制宜、宜氢则氢,避免各场景一拥而上、低水平重复建设。
2026-03-19 10:10
2026中关村论坛年会将于3月25日至29日在北京举办。
2026-03-19 10:04
日前发布的《中国地热产业发展报告2025》显示,我国地热产业多元化利用格局正在形成。在地热供暖发展带动下,我国地热产业规模长期稳居世界第一。
2026-03-19 10:00
由于土豆块茎外形粗陋、埋于地下,又不见于《圣经》,一度被殖民者视为“魔鬼之根”或带毒之物。另一方面,随着城市扩张与人口增长,粮食压力加剧,土豆因高产、耐寒、适宜在小块土地种植而被人们重视。
2026-03-19 10:00
作者:刘琦 仇焕广(分别系中国人民大学助理教授,辽宁大学党委常委、副校长)  今年《政府工作报告》提出,“推进先进适用农机装备研发应用,打通农业科技推广‘最后一公里’”。
2026-03-19 09:59
为此,生态环境法典针对重点流域、重要生态单元设置专门规范,明确长江、黄河等重点区域一体化保护要求,建立协同机制。生态环境法典第三编第六章“生态退化的预防和治理”,整合水土保持法、防沙治沙法的有关规定,分为水土保持、防沙治沙两节。
2026-03-18 09:38
“‘两弹一星’不是孤立的科技突破,而是面向国家需求‘从0到1’的科技创新。本次活动由全国科学道德和学风建设宣讲教育领导小组主办,中国科协科学技术传播中心、安徽省科学技术协会、安徽农业大学、光明网联合承办。
2026-03-18 09:27
对于1型糖尿病患者而言,胰腺中那些负责分泌胰岛素、调节血糖的胰岛β细胞,被自身免疫系统错误地当成了“入侵者”,日复一日地遭受攻击,直至彻底损毁。这3个病例,分别代表中国乃至全球再生医学领域的3个“首次”——世界首例自体、中国首例异体、世界首例青少年再生胰岛移植治疗1型糖尿病。
2026-03-18 09:27
记者3月17日从国家能源局获悉,2026年1至2月,全社会用电量累计16546亿千瓦时,同比增长6.1%。从分产业用电看,第一产业用电量223亿千瓦时,同比增长7.4%;第二产业用电量10279亿千瓦时,同比增长6.3%,其中,工业用电量同比增长6.4%,高技术及装备制造业用电量同比增长10.6%;第三产业用电量3231亿千瓦时,同比增长8.3%,其中,充换电服务业、互联网数据服务业用电量增速分别达到55.1%、46.2%。
2026-03-18 09:26
当前,以家庭农场、农民合作社、龙头企业为代表的新型农业经营主体已成为“强农兴村”的中坚力量,发展成效显著。夯实联农带农长效机制,还需构建多层次、可落地的政策环境,让农业经营主体有动力、有能力、有底气带动小农户共同增收。
2026-03-18 09:26
在成都温江区,骑行爱好者李先生沿着北林绿道前行,穿梭在虫鸣鸟叫、淡淡花香之中。”  一幅幅充满生机的新春图景,正是成都加快建设践行新发展理念的公园城市示范区的生动注脚。
2026-03-18 09:26
分享几个故事,一起走进地球科学的世界。
2026-03-16 18:39
工业和信息化部、财政部、国家发展改革委日前印发《关于开展氢能综合应用试点工作的通知》。通知提出,通过城市群试点,将氢能应用场景由燃料电池汽车向交通、工业等具备条件的多元领域拓展。
2026-03-17 09:35
加载更多