点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:真实测评第二弹!DeepSeek-R1 API版性能测评
首页> 科技频道> 综合新闻 > 正文

真实测评第二弹!DeepSeek-R1 API版性能测评

来源:光明网2025-03-05 10:08

  在上期《DeepSeek-R1服务性能评测网页版》分析中,各平台在用户体验与功能表现方面存在一定差异。本轮评测则采用中国软件评测中心人工智能部自研大模型服务性能工具,选取六家主流平台的API版本,通过多时段多轮次测试开展系统性评估。

  评测采用标准化代码题作为测试用例,在多个典型时段进行重复性验证,采用核心性能指标、综合稳定性指标两大评估体系:

  1.核心性能指标:涵盖首Token延迟时间、推理过程耗时、回复响应时间、总处理时长等基础指标,以及基于时间计算的推理速度(tokens/sec)、回复速度(tokens/sec)和平均总速度(tokens/sec)等衍生指标;

  2.综合稳定性指标:通过上述核心性能指标以及总体标准差和极差两项统计量,系统评估各平台在不同时段的性能波动情况。

  一、核心性能指标分析

  (一)首Token延迟时间

  为分析各平台响应速度,我们采取多时段抽样评测方法,测试各平台首Token延迟时间(从触发请求指令起至模型产生首个有效Token的时间间隔),本次测试结果显示大部分平台表现出良好的稳定性,首Token延迟时间均稳定在2秒以内,用户体验未出现显著延迟感知。其中,硅基流动平台在14:00时段出现明显波动,波动频次较多,首Token延迟时间达到异常峰值,形成与其他平台的显著差异。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表1:首Token延迟时间(单位:秒)

  (二)推理过程耗时和全流程总处理时长

  鉴于DeepSeek-R1平台深度推理的技术特性,为分析各平台在时间表现上差异性,本次评测对其推理过程耗时和全流程总处理时长分别进行了单独测量。百度智能云、火山引擎、腾讯云、讯飞开放平台等在时间表现上差异较小。硅基流动平台在推理时间和总处理时间耗时均较高,与其他平台存在一定差距;阿里云百炼平台则呈现出明显的时段性波动特征,上午时段各项耗时指标均稳定在基准值范围内,但下午时段整体耗时出现一定幅度的波动。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图1:推理与全流程总处理时间(单位:秒)

  (三)推理速度

  分析大模型对输入内容进行理解、分析、推理等核心处理环节效率,通过推理速度[ 单位时间内处理的Token量来量化模型处理复杂任务的计算效率]反映其底层架构的优化程度和并行计算能力。在用户体验层面,较快的推理速度能够缩短复杂问题的响应时间,提升交互过程中模型的“即时智能感”,从而增强用户对系统专业性的认知。从评测数据来看,火山引擎平台在该项指标上表现出显著优势,其推理速度均值达到29tokens/s。相较之下,讯飞开放平台的推理速度均值为1.2tokens/s,与领先平台存在一定性能差距。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图2:推理速度(单位:token/s)

  (四)回复速度

  采用回复速度[ 从接收输入到输出完整回复的时间效率。]衡量模型响应用户请求效率,通过单位时间内生成的Token量来量化交互流畅度。火山引擎平台在该项指标上领先于其他平台,其回复速度均值达到32tokens/s,交互感受自然流畅。在稳定性方面,硅基流动平台的回复速度数据呈现明显波动特征,与其他平台相比存在较大离散度。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图3:回复速度(单位:token/s)

  (五)总平均速度

  采用总平均速度衡量各平台平均反应速度,火山引擎反应速度最快,百度智能云、阿里云、腾讯云等平均速度差距较小,表现较好,讯飞可能限于算力问题,总平均速度表现较差。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图4:总平均速度(单位:token/s)

  二、综合稳定性指标

  在综合评估环节,采用熵权法[ 根据各指标数值变化对整体的影响,计算指标的熵值,进而确定权重。]进行指标权重分配,通过计算各指标数据的离散程度确定客观权重,权重分配见表2。

真实测评第二弹!DeepSeek-R1 API版性能测评

  表2:各参数熵权法权重分配

  权重分配后的性能综合评估(见图5)及各指标均值统计(见表3):火山引擎平台在核心性能维度保持行业领先水平,其综合表现呈现全面均衡特征,在深度推理时间与总处理时长两项关键指标上,优势显著,均值水平优于其他平台。硅基流动平台在多时段测试中表现出较高的离散程度,其性能指标波动幅度在稳定性评估中处于相对高位。

真实测评第二弹!DeepSeek-R1 API版性能测评

  图5:各平台API性能图

真实测评第二弹!DeepSeek-R1 API版性能测评

  表3:各指标平均数据图

  三、多平台API大模型评测结果分析

  综合来看,火山引擎平台凭借在深度推理效率与系统稳定性方面的显著优势,成为本次评测中综合性能最均衡的选择,该平台在权重分配中获得最高综合得分(99.52),在首Token延迟时间、推理过程耗时等基础指标,以及推理速度等衍生指标上,均展现出卓越的表现,其深度推理耗时均值位于行业平均水平的前列,展现出底层架构的高效优化能力。百度智能云(73.21)、腾讯云(72.73)、讯飞开放平台(66.27)等平台在一般性的内容创作、知识问答等场景中,能够较好地满足需求,表现出了稳定的性能。硅基流动可能存在限于用户量大算力不足情况,稳定性欠佳,容易出现响应延迟以及结果波动的情况。

  本次测评为企业及开发者应用提供客观参考,分析平台性能优势,帮助用户根据实际需求选择最适配的平台,增强行业竞争力与用户体验,进一步助力技术和行业应用落地。(中国软件评测中心)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 山东青岛:夯实春季田管 确保小麦丰收

  • 四川荣县:乐德红土地 春日调色板

独家策划

推荐阅读
粮食安全,是“国之大者”。3月5日提请十四届全国人大四次会议审查的“十五五”规划纲要草案提出“十五五”时期主要目标和重大任务,明确粮食综合生产能力达到1.45万亿斤左右。
2026-03-06 09:35
我国科技成果大量涌现,人形机器人大放异彩,开源大模型领跑全球,芯片攻关取得新突破,创新药迅猛发展。
2026-03-06 09:31
生态环境法典草案规定,国家根据需要在长江、黄河、青藏高原等重要流域、区域建立协调机制,统筹指导、综合协调长江、黄河、青藏高原等重要流域、区域的生态环境保护等工作。
2026-03-06 09:29
“十五五”时期,开展生态保护修复成效评估、科学开展大规模国土绿化,将确保生态保护修复走得更稳、更实、更远。
2026-03-06 09:27
当前,新一轮科技革命和产业变革加速突破,我国经济基础稳、优势多、韧性强、潜能大,中国特色社会主义制度优势、超大规模市场优势、完整产业体系优势、丰富人才资源优势更加彰显。
2026-03-06 09:25
(记者冯丽妃)3月4日,全国政协十四届四次会议首场“委员通道”集体采访活动在北京人民大会堂举行。”  令人欣慰的是,潘建伟表示,通过国家重大科研任务的锤炼,我国量子科技研究队伍呈现年轻化、跨学科交叉的特点,并且兼具前沿探索和工程攻关的能力。
2026-03-05 09:56
全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略带来的化橘红树苗。这是全国人大代表、广东茂名化州市培林橘红种植专业合作社社长廖志略制作的集纳了乡亲们笑脸的3D照片。
2026-03-05 09:56
在天津市滨海新区,海上油气平台建设工人操作打磨机器人。不仅是我们团队,金凤实验室已为入驻科学家搭建病理表型组平台、纳米合成平台等8个国际领先的科研平台,提供科研设施设备超过6000台套。
2026-03-05 09:56
中国科学院广州地球化学研究所王强研究员团队联合国际合作者的一项最新研究给出了答案:高原并非一直向上生长,而是经历了两次“抬升—沉降”的起伏旋回。“青藏高原的生长不是简单的‘长高’,而是多阶段‘抬升—沉降’交替的结果。
2026-03-05 09:56
全国政协委员、宁德时代新能源科技股份公司董事长曾毓群从产业实战经历出发,分享了独属我国新能源事业的攀登故事。他坚信,秉持攀登精神、锚定目标,脚踏实地、勇毅笃行,就没有越不过去的险峰,就没有实现不了的梦想!
2026-03-05 09:56
在从事概率地震危险性分析、地震灾害风险评估工作中,我深刻感受到新兴技术发展日新月异,大大提升了我国的防灾减灾能力。
2026-03-04 09:42
从火星之上的精细探测,到地球深处探测的装备突破,我们用持续的创新创造,把关键核心技术牢牢掌握在中国人自己手中,为培育新质生产力、促进高质量发展贡献力量。
2026-03-04 09:41
我们始终坚持教育、科技、人才一体发展,推行“本硕博一体贯通+产业+专家+基地”模式,通过“博士村长”计划,培养了一大批知农爱农的复合型人才。
2026-03-04 09:40
回望“十四五”,中国经济在世界百年未有之大变局中彰显强大韧性,让我对高质量发展路径有了更深刻的认知。
2026-03-04 09:39
中国科学院国家天文台,年过八旬的中国科学院院士汪景琇春节假期一直在办公室忙碌,“有篇科普文章刚开了头,得抓紧写出来。”
2026-03-04 09:38
从实验室到产业化应用并不容易。王鹤说:“企业要想迅速响应市场需求,需要强化企业创新主体地位,让创新链和产业链无缝对接。”
2026-03-04 09:37
创新驱动是产业从“量大”走向“质强”的关键一跃,更是培育新质生产力的主引擎。
2026-03-04 09:36
我国生成式人工智能用户规模和普及率快速提升。
2026-03-03 09:37
本报讯(记者陶稳 通讯员张莹)突然出现头晕、头痛、视力障碍、肢体麻木无力,持续几分钟到几小时,无法缓解……遇到这些情况别大意,可能是“沉默的杀手”脑梗死在作祟。
2026-03-03 09:35
近日,中国科学院青岛生物能源与过程研究所太阳能光电转化与利用全国重点实验室联合香港科技大学研究团队,在钙钛矿太阳能电池埋底界面工程领域取得重要突破。
2026-03-03 09:34
加载更多