点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:真实测评第二弹!DeepSeek-R1 API版性能测评
首页> 科技频道> 综合新闻 > 正文

真实测评第二弹!DeepSeek-R1 API版性能测评

来源:光明网2025-03-05 10:08

  在上期《DeepSeek-R1服务性能评测网页版》分析中,各平台在用户体验与功能表现方面存在一定差异。本轮评测则采用中国软件评测中心人工智能部自研大模型服务性能工具,选取六家主流平台的API版本,通过多时段多轮次测试开展系统性评估。

  评测采用标准化代码题作为测试用例,在多个典型时段进行重复性验证,采用核心性能指标、综合稳定性指标两大评估体系:

  1.核心性能指标:涵盖首Token延迟时间、推理过程耗时、回复响应时间、总处理时长等基础指标,以及基于时间计算的推理速度(tokens/sec)、回复速度(tokens/sec)和平均总速度(tokens/sec)等衍生指标;

  2.综合稳定性指标:通过上述核心性能指标以及总体标准差和极差两项统计量,系统评估各平台在不同时段的性能波动情况。

  一、核心性能指标分析

  (一)首Token延迟时间

  为分析各平台响应速度,我们采取多时段抽样评测方法,测试各平台首Token延迟时间(从触发请求指令起至模型产生首个有效Token的时间间隔),本次测试结果显示大部分平台表现出良好的稳定性,首Token延迟时间均稳定在2秒以内,用户体验未出现显著延迟感知。其中,硅基流动平台在14:00时段出现明显波动,波动频次较多,首Token延迟时间达到异常峰值,形成与其他平台的显著差异。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表1:首Token延迟时间(单位:秒)

  (二)推理过程耗时和全流程总处理时长

  鉴于DeepSeek-R1平台深度推理的技术特性,为分析各平台在时间表现上差异性,本次评测对其推理过程耗时和全流程总处理时长分别进行了单独测量。百度智能云、火山引擎、腾讯云、讯飞开放平台等在时间表现上差异较小。硅基流动平台在推理时间和总处理时间耗时均较高,与其他平台存在一定差距;阿里云百炼平台则呈现出明显的时段性波动特征,上午时段各项耗时指标均稳定在基准值范围内,但下午时段整体耗时出现一定幅度的波动。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图1:推理与全流程总处理时间(单位:秒)

  (三)推理速度

  分析大模型对输入内容进行理解、分析、推理等核心处理环节效率,通过推理速度[ 单位时间内处理的Token量来量化模型处理复杂任务的计算效率]反映其底层架构的优化程度和并行计算能力。在用户体验层面,较快的推理速度能够缩短复杂问题的响应时间,提升交互过程中模型的“即时智能感”,从而增强用户对系统专业性的认知。从评测数据来看,火山引擎平台在该项指标上表现出显著优势,其推理速度均值达到29tokens/s。相较之下,讯飞开放平台的推理速度均值为1.2tokens/s,与领先平台存在一定性能差距。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图2:推理速度(单位:token/s)

  (四)回复速度

  采用回复速度[ 从接收输入到输出完整回复的时间效率。]衡量模型响应用户请求效率,通过单位时间内生成的Token量来量化交互流畅度。火山引擎平台在该项指标上领先于其他平台,其回复速度均值达到32tokens/s,交互感受自然流畅。在稳定性方面,硅基流动平台的回复速度数据呈现明显波动特征,与其他平台相比存在较大离散度。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图3:回复速度(单位:token/s)

  (五)总平均速度

  采用总平均速度衡量各平台平均反应速度,火山引擎反应速度最快,百度智能云、阿里云、腾讯云等平均速度差距较小,表现较好,讯飞可能限于算力问题,总平均速度表现较差。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图4:总平均速度(单位:token/s)

  二、综合稳定性指标

  在综合评估环节,采用熵权法[ 根据各指标数值变化对整体的影响,计算指标的熵值,进而确定权重。]进行指标权重分配,通过计算各指标数据的离散程度确定客观权重,权重分配见表2。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表2:各参数熵权法权重分配

  权重分配后的性能综合评估(见图5)及各指标均值统计(见表3):火山引擎平台在核心性能维度保持行业领先水平,其综合表现呈现全面均衡特征,在深度推理时间与总处理时长两项关键指标上,优势显著,均值水平优于其他平台。硅基流动平台在多时段测试中表现出较高的离散程度,其性能指标波动幅度在稳定性评估中处于相对高位。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图5:各平台API性能图

真实测评第二弹!DeepSeek-R1 API版性能测评

  表3:各指标平均数据图

  三、多平台API大模型评测结果分析

  综合来看,火山引擎平台凭借在深度推理效率与系统稳定性方面的显著优势,成为本次评测中综合性能最均衡的选择,该平台在权重分配中获得最高综合得分(99.52),在首Token延迟时间、推理过程耗时等基础指标,以及推理速度等衍生指标上,均展现出卓越的表现,其深度推理耗时均值位于行业平均水平的前列,展现出底层架构的高效优化能力。百度智能云(73.21)、腾讯云(72.73)、讯飞开放平台(66.27)等平台在一般性的内容创作、知识问答等场景中,能够较好地满足需求,表现出了稳定的性能。硅基流动可能存在限于用户量大算力不足情况,稳定性欠佳,容易出现响应延迟以及结果波动的情况。

  本次测评为企业及开发者应用提供客观参考,分析平台性能优势,帮助用户根据实际需求选择最适配的平台,增强行业竞争力与用户体验,进一步助力技术和行业应用落地。(中国软件评测中心)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 天舟九号货运飞船发射任务取得圆满成功

  • 景德镇陶阳里:城市更新激发文旅新活力

独家策划

推荐阅读
新时代新征程,以中国式现代化全面推进强国建设、民族复兴伟业,实现新型工业化是关键任务。
2025-07-15 04:10
现阶段,人工智能赋能新型工业化已取得明显成效,但仍存在人工智能关键硬件与开源软件储备不足、人工智能在重点行业领域应用率偏低、人工智能领域人才短缺且结构不合理、缺乏适应人工智能发展的标准体系和法律法规等问题。
2025-07-15 04:10
2025年可谓人形机器人的“破圈”之年。从蛇年春晚舞台的机器人扭秧歌,到北京亦庄的机器人马拉松,再到浙江杭州的机器人格斗赛……人形机器人正从“实验室”迈向各类“应用场”。
2025-07-15 02:55
科考船在狂风巨浪中剧烈摇摆,寻找渺小的目标如同大海捞针。回收沉睡海底半年的海底地震仪,是这次出海科研任务中最艰难的一环。“快看!在那儿!”随着一声疾呼划破沉寂,
2025-07-15 02:55
老北京人都知道,居家过日子,买剪刀要买王麻子的,吃腐乳要吃王致和的,穿布鞋要买内联升的…… 这是为啥?因为人家的这些物件,得劲儿呗!为啥得劲儿?匠心所致也!
2025-07-15 02:55
从27岁到60岁,33载深蓝搏击,马远良实现了中国航空声呐从无到有、从追赶到并跑乃至局部领先的壮举。
2025-07-14 08:49
何熙昱锦也表示,脑机接口技术涉及芯片、传感器、算法、应用等多个环节,需要上下游企业形成更紧密的合作关系。
2025-07-14 08:45
在论坛签约仪式上,中国、哈萨克斯坦、巴基斯坦、埃及等国家共签署12个数字经济合作项目,涉及跨境电商、智慧城市等领域。
2025-07-14 08:45
天然铀是重要的战略资源和能源矿产,铀资源勘查采冶位于核燃料循环体系的前端,是核工业发展的重要物质基础。
2025-07-14 08:42
这条从技术突破、场景深耕到生态协同的融合路径,正强劲驱动中国人工智能产业迈向高质量跃升。
2025-07-14 08:41
据国家统计局最新发布的数据,2025年全国夏粮总产量达到14973.8万吨,单位面积产量与去年基本持平,总体实现了夏粮生产的平稳运行。这一成绩的取得,
2025-07-14 04:15
从蓝莓大棚里的生长曲线,到肉牛项圈里的健康密码,广西的特色农业正被人工智能重新定义。
2025-07-14 04:25
7月13日,随着和田—民丰—且末—若羌750千伏输变电工程最后一相导线跨越和若铁路、国道315,稳稳抵达188号铁塔,历经15年建设的新疆环塔里木盆地750千伏输变电工程(以下简称“环塔工程”)全线贯通,进入投运倒计时。
2025-07-14 04:25
防晒,究竟该如何掌握分寸,才能在抵御伤害与拥抱健康之间找到平衡点?
2025-07-11 09:58
生命只有一次,心脏健康不容忽视。唯有提高对心梗症状的警觉性,掌握正确的急救方法,才能为生命筑起一道坚实的“心”防线。
2025-07-11 09:58
晒后背是一种传统的养生方法,符合中医“冬病夏治”的理论,其核心在于借助盛夏充沛的自然阳气,通过阳光照射背部,来提升人体自身阳气。
2025-07-11 09:58
截至7月10日,我国“北气南下”能源大通道累计输气量突破1000亿立方米,安全平稳运行超2000天,标志着这条纵贯南北的能源大动脉在保障国家能源安全、推动绿色转型方面取得重大进展。
2025-07-11 04:55
从自然资源部新一轮找矿突破战略行动办公室了解到,今年上半年,全国新发现矿产地38处,同比增长31%;新发现矿产地中,大中型矿产地25处。
2025-07-11 04:10
时下,智能手机已成为人们获取信息、社交娱乐的重要工具。多学科专家指出,当我们刷手机出现注意力极度涣散、缺乏独立思考能力、情绪化反应严重、深度学习能力下降、空虚感增加等症状时,就表明我们的大脑正在被“腐蚀”。所谓的“脑腐”,即因长期暴露于碎片化信息而引发的认知衰退与脑功能损伤。
2025-07-11 04:10
由于肉眼很难发现水污染的情况,洪水之后饮水需要特别注意,避免直接饮用自来水、山泉水、河水、湖水等。肖丹提醒,如果不适症状较为严重,出现持续高热、剧烈呕吐、严重腹泻、脱水、意识障碍等,或皮肤干燥、眼窝凹陷、少尿等情况,应及时就医。
2025-07-10 09:34
加载更多