点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:真实测评第二弹!DeepSeek-R1 API版性能测评
首页> 科技频道> 综合新闻 > 正文

真实测评第二弹!DeepSeek-R1 API版性能测评

来源:光明网2025-03-05 10:08

  在上期《DeepSeek-R1服务性能评测网页版》分析中,各平台在用户体验与功能表现方面存在一定差异。本轮评测则采用中国软件评测中心人工智能部自研大模型服务性能工具,选取六家主流平台的API版本,通过多时段多轮次测试开展系统性评估。

  评测采用标准化代码题作为测试用例,在多个典型时段进行重复性验证,采用核心性能指标、综合稳定性指标两大评估体系:

  1.核心性能指标:涵盖首Token延迟时间、推理过程耗时、回复响应时间、总处理时长等基础指标,以及基于时间计算的推理速度(tokens/sec)、回复速度(tokens/sec)和平均总速度(tokens/sec)等衍生指标;

  2.综合稳定性指标:通过上述核心性能指标以及总体标准差和极差两项统计量,系统评估各平台在不同时段的性能波动情况。

  一、核心性能指标分析

  (一)首Token延迟时间

  为分析各平台响应速度,我们采取多时段抽样评测方法,测试各平台首Token延迟时间(从触发请求指令起至模型产生首个有效Token的时间间隔),本次测试结果显示大部分平台表现出良好的稳定性,首Token延迟时间均稳定在2秒以内,用户体验未出现显著延迟感知。其中,硅基流动平台在14:00时段出现明显波动,波动频次较多,首Token延迟时间达到异常峰值,形成与其他平台的显著差异。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表1:首Token延迟时间(单位:秒)

  (二)推理过程耗时和全流程总处理时长

  鉴于DeepSeek-R1平台深度推理的技术特性,为分析各平台在时间表现上差异性,本次评测对其推理过程耗时和全流程总处理时长分别进行了单独测量。百度智能云、火山引擎、腾讯云、讯飞开放平台等在时间表现上差异较小。硅基流动平台在推理时间和总处理时间耗时均较高,与其他平台存在一定差距;阿里云百炼平台则呈现出明显的时段性波动特征,上午时段各项耗时指标均稳定在基准值范围内,但下午时段整体耗时出现一定幅度的波动。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图1:推理与全流程总处理时间(单位:秒)

  (三)推理速度

  分析大模型对输入内容进行理解、分析、推理等核心处理环节效率,通过推理速度[ 单位时间内处理的Token量来量化模型处理复杂任务的计算效率]反映其底层架构的优化程度和并行计算能力。在用户体验层面,较快的推理速度能够缩短复杂问题的响应时间,提升交互过程中模型的“即时智能感”,从而增强用户对系统专业性的认知。从评测数据来看,火山引擎平台在该项指标上表现出显著优势,其推理速度均值达到29tokens/s。相较之下,讯飞开放平台的推理速度均值为1.2tokens/s,与领先平台存在一定性能差距。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图2:推理速度(单位:token/s)

  (四)回复速度

  采用回复速度[ 从接收输入到输出完整回复的时间效率。]衡量模型响应用户请求效率,通过单位时间内生成的Token量来量化交互流畅度。火山引擎平台在该项指标上领先于其他平台,其回复速度均值达到32tokens/s,交互感受自然流畅。在稳定性方面,硅基流动平台的回复速度数据呈现明显波动特征,与其他平台相比存在较大离散度。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图3:回复速度(单位:token/s)

  (五)总平均速度

  采用总平均速度衡量各平台平均反应速度,火山引擎反应速度最快,百度智能云、阿里云、腾讯云等平均速度差距较小,表现较好,讯飞可能限于算力问题,总平均速度表现较差。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图4:总平均速度(单位:token/s)

  二、综合稳定性指标

  在综合评估环节,采用熵权法[ 根据各指标数值变化对整体的影响,计算指标的熵值,进而确定权重。]进行指标权重分配,通过计算各指标数据的离散程度确定客观权重,权重分配见表2。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表2:各参数熵权法权重分配

  权重分配后的性能综合评估(见图5)及各指标均值统计(见表3):火山引擎平台在核心性能维度保持行业领先水平,其综合表现呈现全面均衡特征,在深度推理时间与总处理时长两项关键指标上,优势显著,均值水平优于其他平台。硅基流动平台在多时段测试中表现出较高的离散程度,其性能指标波动幅度在稳定性评估中处于相对高位。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图5:各平台API性能图

真实测评第二弹!DeepSeek-R1 API版性能测评

  表3:各指标平均数据图

  三、多平台API大模型评测结果分析

  综合来看,火山引擎平台凭借在深度推理效率与系统稳定性方面的显著优势,成为本次评测中综合性能最均衡的选择,该平台在权重分配中获得最高综合得分(99.52),在首Token延迟时间、推理过程耗时等基础指标,以及推理速度等衍生指标上,均展现出卓越的表现,其深度推理耗时均值位于行业平均水平的前列,展现出底层架构的高效优化能力。百度智能云(73.21)、腾讯云(72.73)、讯飞开放平台(66.27)等平台在一般性的内容创作、知识问答等场景中,能够较好地满足需求,表现出了稳定的性能。硅基流动可能存在限于用户量大算力不足情况,稳定性欠佳,容易出现响应延迟以及结果波动的情况。

  本次测评为企业及开发者应用提供客观参考,分析平台性能优势,帮助用户根据实际需求选择最适配的平台,增强行业竞争力与用户体验,进一步助力技术和行业应用落地。(中国软件评测中心)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 乙巳年黄帝故里拜祖大典在河南新郑举行

  • 上海:纪念五卅运动100周年文物史料专题展开幕

独家策划

推荐阅读
目前全球6G研发已从概念探索进入关键技术攻关阶段,中国围绕2030年实现6G商用这一目标加速布局。
2025-04-01 09:50
AI医疗只是辅助手段。
2025-04-01 09:48
31日,在2025中关村论坛年会“重大科技成果发布活动”上,由北京金融监管局联合市科委、中关村管委会、市经济和信息化局、市委金融办共同指导,全国首个商业航天保险共保体组织——“北京商业航天保险共保体”正式发布,助力北京商业航天加速发展。
2025-04-01 09:47
3月31日,“南海二号”钻井平台在惠州19-6油田海域进行钻探作业。
2025-04-01 09:45
2025中关村论坛年会重大成果专场发布会31日举行,围绕“四个面向”发布19项重大科技成果,展现了我国在前沿科技引领、开源开放合作、创新驱动发展等方面的成效。
2025-04-01 09:41
现场发布2024中国正能量网络精品征集展播活动结果,与会领导为中国正能量十佳网络精品代表、突出贡献单位颁发荣誉证书和纪念牌。
2025-04-01 09:48
主题分享会上发布了“算法向善”南宁宣言,重点互联网企业代表集体签署。
2025-04-01 09:47
今年以来,我国以DeepSeek为代表的大模型企业通过算法优化、有针对性的训练和开源生态协作,在使用“缩水版”GPU芯片的情况下,将千亿参数模型训练成本压缩至同类模型的1/10,走出了一条从粗放式算力堆砌向内生式效能提升的新路径。
2025-03-31 10:21
“联合科研团队初步确定,青龙山恐龙蛋化石普遍表现出特殊排列规律,如常见同层埋藏的恐龙蛋3至5枚一组排列成微微弯曲的弧线,多组弧线近平行展布。
2025-03-31 10:03
由西湖大学孵化的西湖仪器,日前成功实现12英寸碳化硅衬底激光剥离自动化解决方案,大幅降低损耗,提升加工速度,推进了碳化硅行业降本增效。
2025-03-31 10:02
日照两城河口国家湿地公园,一群绿头鸭在水面上自由飞翔。
2025-03-31 10:01
3月28至29日,作为2025中关村论坛年会的重要组成部分,中关村国际技术交易大会“全球高校科技成果转化促进大会”在北京工业大学举行。
2025-03-31 09:59
2025中关村论坛年会于3月27日至31日在北京举办,以“新质生产力与全球科技合作”为年度主题。其中将举办碳达峰碳中和科技、世界绿色设计等论坛,为新质生产力发展注入绿色动能。
2025-03-28 03:30
日前,我国自主研制的最大直径盾构机“沧渊号”成功下线,将承担世界最长公路水下盾构隧道——海太长江隧道工程左线掘进任务。大海古称“沧渊”,海太长江隧道横跨长江入海口,全长39.07公里,其中过江隧道长11.185公里,最大埋深超75米,计划于2028年建成。“沧渊号”开挖直径达16.66米,整机总长176米,总重量超5650吨,再创国产超大直径盾构机新纪录。
2025-03-28 04:00
3月27日,国家重大科技基础设施高能同步辐射光源HEPS正式宣布启动带光联调,这标志着HEPS装置建设进入冲刺阶段。HEPS是设计亮度世界最高的第四代同步辐射光源,也是我国第一台高能量同步辐射光源。截至2025年1月,经过多轮束流调试,HEPS储存环束流强度达到40毫安以上,发射度降低到93皮米弧度。
2025-03-28 04:00
3月27日,以“新质生产力与全球科技合作”为主题的2025中关村论坛年会在北京中关村国际创新中心拉开帷幕。来自100多个国家和地区的上千名嘉宾齐聚一堂,共议前沿科技趋势、共享创新思想、共谋发展机遇。
2025-03-28 03:30
近日,国家卫生健康委会同国家市场监督管理总局发布50项食品安全国家标准和9项标准修改单。截至目前,我国已累计发布食品安全国家标准1660项,包含2万多项指标,涵盖全部340余种食品类别。
2025-03-28 04:00
记者日前获悉,自去年10月全球洲际间断分布的5种崖柏属植物全部落户重庆市开州区崖柏国家林木种质资源库以来,科研团队已成功繁育崖柏实生苗30万株,崖柏扦插苗20万株,
2025-03-27 04:00
职业技能培训对劳动者提技增收、缓解就业矛盾意义重大。党中央、国务院高度重视职业技能培训工作,2024年印发《关于实施就业优先战略促进高质量充分就业的意见》,要求健全终身职业技能培训制度。
2025-03-27 05:10
长期以来,天气预报主要依赖于传统的数值天气预报模型。随着AI技术的突破,气象领域开始应用AI技术提高天气预报以及气候预测水平。2023年,《科学》杂志将“AI辅助天气预报的发展”评为世界科学十大进展,同年我国主导的AI大模型在精细化天气预报中的应用,更被评为中国科学十大进展之首。这些里程碑既展现了大气科学与AI融合的潜力,也为应对极端天气和防灾减灾创造了新机遇。
2025-03-27 05:10
加载更多