浪潮信息刘军：智能体时代，速度就是金钱

来源：光明网2025-11-06 10:04

　　“在AI超节点系统的设计上，不应该再依照惯性思维，过分追求规模，而是应该从客户视角出发，把token交互速度作为关键衡量指标，这是智能体时代AI超节点的核心商业价值。”这是浪潮信息首席AI战略官刘军近期接受采访时，反复强调的一点。

浪潮信息刘军：智能体时代，速度就是金钱

　　浪潮信息首席AI战略官刘军

　　智能体时代，“快”不再是可选项

　　规模扩展定律（Scaling Law）一直是驱动大模型智能持续增长的底层逻辑，推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入，能显著提升模型的推理能力，而以推理能力为代表的复杂思维的涌现，是构建智能体应用的基础。另一方面，以DeepSeek为代表的开源大模型极大降低创新门槛，加速了智能体产业化的到来。

浪潮信息刘军：智能体时代，速度就是金钱

　　Scaling Law驱动智能持续进化

　　刘军指出，“智能体产业化的核心三要素是能力、速度和成本。其中，token交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中，基本上按照大概50毫秒的水平，就是每秒输出20个token，人的阅读速度就能跟得上。但很多人还没意识到，未来的智能体时代会更多出现机器与机器之间的交互场景，对于智能体之间的交互而言，这个速度远远不够，比如说直播电商、量化交易、欺诈防控等特定业务场景中，对token生成速度的最低要求都是10毫秒以下。”

　　以高强度、实时互动的直播电商场景为例。2024年底，某知名直播电商平台进行了专家组合智能体的A/B实验，实验组部署了经过深度优化的智能体，对照组则使用未经优化的标准版本智能体，优化后的智能体平均响应延迟相较于对照组降低了38%。实验结果表明，部署了低延迟智能体的直播间，其商品交易总额（GMV）平均提升了11.4%，同时用户的复购率也取得了7.8%的显著增长。

　　38%的延迟降低，并非提升了智能体回答内容的质量，而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的“黄金窗口”期内。在直播电商这类场景中，用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在“思考”时，用户的注意力可能已经转移，或者主播已经开始介绍下一件商品，从而错失了最佳的销售转化窗口。

　　“在智能体时代，快，不再是可选项，而是商业成功的刚性约束。”刘军强调，“只有当智能体的响应快于业务决策的窗口期，快于用户耐心消逝的临界点……AI才能真正成为核心生产力。”

　　token交互速度重塑AI算力价值评估体系

　　事实上，对于token交互速度的考量正在重构AI算力系统的价值评估体系。最近广受关注的InferenceMax™ 开源AI基准测试，正在创造一种动态追踪模型更迭的算力评估体系，试图在真实AI推理环境下衡量各类AI算力系统的综合效率。在这一基准测试中，token生成速度被列为最重要的一项衡量指标。

浪潮信息刘军：智能体时代，速度就是金钱

　　SemiAnalysis InferenceMAX™ 开源AI基准测试

　　横轴：交互速度（Interactivity，单位：tok/s/user）；纵轴：单位GPU token吞吐量（Token Throughput per GPU，单位：tok/s/gpu）

　　同时，清华大学与中国软件评测中心（CSTC）对20余家主流大模型服务提供商的综合表现进行了全面评估，联合发布了大模型服务性能排行榜，明确指出延迟指标是用户体验的核心，直接决定用户留存，是平台差异化竞争的首要技术门槛。因此，速度同样也成为了大模型API服务提供商的核心竞争力。当前，全球主要大模型API服务商的token生成速度，基本维持在10~20 毫秒左右，而国内的生成速度普遍高于30毫秒。

浪潮信息刘军：智能体时代，速度就是金钱

　　全球大模型API服务商DeepSeek Token生成速度

　　元脑SD200迈入“10毫秒时代”

　　要实现更低延迟的token生成能力，必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。

　　浪潮信息对元脑SD200超节点AI服务器进行了大量的软硬件协同创新与优化，实现DeepSeek R1大模型单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入“10毫秒时代”。

　　对于为何能在token生成速度上实现如此出色的性能，刘军表示，智能体中各个模型之间的交互，很多时候通信数据包并不是很大，超高的带宽会出现浪费，“就像是从a地到b地修了16车道的高速公路，但是车辆在16车道上只跑了很短的距离，反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点，就是解决车辆上高速和下高速的卡点问题，让车辆直通上来，直通下去。”

　　元脑SD200采用了独创的多主机3D Mesh系统架构，实现单机64路本土AI芯片高密度算力扩展，原生支持开放加速模组OAM，兼容多元AI芯片。同时，元脑SD200通过远端GPU虚拟映射技术创新，突破跨主机域统一编址难题，实现显存统一地址空间扩增8倍，单机可以提供最大4TB显存和64TB内存，为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计，元脑SD200单机即可承载4万亿单体模型，或者同时部署由多个万亿参数模型构成的智能体，多模协作执行复杂任务。

浪潮信息刘军：智能体时代，速度就是金钱

　　元脑SD200创新多主机3D Mesh系统架构

　　互连协议的设计是元脑SD200实现极低通信延迟的关键，浪潮信息做了大量的通信优化和技术创新，如采用极致精简的3层协议栈，并原生支持 Load/Store等“内存语义”，让GPU可直接访问远端节点的显存或主存，将基础通信延迟缩短至百纳秒级；另外Open Fabric原生支持由硬件逻辑实现的链路层重传，重传延迟低至微秒级，特别是分布式、预防式的流控机制，实现全局任务均在发送前确保接收端有能力接收，从根本上避免了拥塞和丢包。

浪潮信息刘军：智能体时代，速度就是金钱

　　元脑SD200极低Latency通信

　　除了硬件方面的创新，浪潮信息也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架、PD分离策略等多方面的优化，大幅提升了DeepSeek、Kimi等大模型的推理输出速度。通信库层面，针对Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了与元脑SD200深度适配的通信算法；框架层面，浪潮信息完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟；在推理阶段，浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。

　　实测数据显示，元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型，当输入长度为4096、输出长度为1024时，单用户token生成达到112 tokens/s，每token生成时间仅为8.9ms，率先实现国内AI服务器token生成速度低于10ms，将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

　　未来十年AI经济的增长边界，从某种意义而言，将取决于整个行业在算法、软件和硬件层面协同攻克延迟挑战的能力。“速度就是金钱”不仅是一种新的商业主张，更是驱动下一代人工智能增长的核心经济逻辑。浪潮信息将面向智能体产业化需求，持续以架构创新激发产业创新活力，让AI成为百行千业的生产力和创新力。（记者战钊）

[ 责编：张佳兴 ]

阅读剩余全文（）