点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:深度测评:DeepSeek-R1服务性能评测网页版
首页> 科技频道> 人工智能 > 正文

深度测评:DeepSeek-R1服务性能评测网页版

来源:光明网2025-02-26 14:15

  DeepSeek于今年1月20日发布开源R1版本大模型,性能对标 OpenAI o1 正式版,自问世以来凭借低训练成本和国际领先的性能引发全球热议。各大云服务商、芯片厂商等第三方服务商陆续上线 DeepSeek R1 服务。由于各平台技术实力、资源投入以及优化策略存在差异,DeepSeek的部署效果参差不齐,在功能设置、用户体验和模型适配程度上各有不同。为深入了解各平台提供服务的DeepSeek的性能,中国软件评测中心人工智能部选择十余家国内外服务的厂商开展了全面评测。

  一、代码测试:理性评测测评结果

  为确保测评结果的客观性,本次测试选用了20道代码题,涵盖不同编程领域和难度级别,测评所部署DeepSeek R1模型第三方平台的结果差异性,并从完整回复率、截断率、无回复率、准确率、吞吐量等方面进行分析。测试基准主要包含以下关键指标:

  1.完整回复率:指模型能完整回答代码题的比例;

  2.截断率:即模型回答过程中出现内容截断的比例;

  3.无回复率:表示模型在规定时间内无法给出任何回复的比例;

  4.准确率:衡量模型回答的正确性;

  5.吞吐量:指单位时间内模型能处理的任务数量,反映模型的处理效率和性能稳定性。

深度测评:DeepSeek-R1服务性能评测网页版

  图1: 第三方平台DeepSeek-R1稳定性评测总榜

  随着 DeepSeek R1 部署时间增长,各厂家线上平台的 DeepSeek R1 表现逐渐趋同。以纳米 AI 为例,短短三天就大幅缩小了与头部厂家的差距,在答案正确性和思考过程方面都有不错的表现。在本次代码测试能力评估中,十二家平台最终都达到了良好水平。

  为测试不同平台在不同时间段的使用效果差异,选取一个代码题,以两小时为一节点,共测四次。其中,纳米AI、POE、天工AI推理反应快,讯飞开放平台、派欧算力云、POE推理能力强,POE、纳米AI、秘塔AI速度快,但无问芯穹、天工AI以及百度智能云在下午4:30的测试时间段上出现了截断以及未回复的情况。

深度测评:DeepSeek-R1服务性能评测网页版

  图2: 各平台在不同时间段的使用效果

  为进一步体现平台间的具体差异性,我们进一步采用具有较长推理过程的算命问题展开探索,以求对比DeepSeek R1在各平台上部署使用效果。

  二、赛博算命:趣味探索部署效果

  在这一环节,我们精心设计了四个别具一格的测试题目,旨在全面检验各模型的能力。

  1.经典台词问答:赵丽蓉老师在小品中的经典台词“宫廷玉液酒”,其下一句是什么?

  2.网络旧梗回顾:网络曾经风靡一时的“不要迷恋哥”,下一句是什么?

  3.汉字识别:有一个左右结构的汉字,左边是“木”,右边是“乞”,请直接回答这个字。

  4.赛博算命:请扮演一位资深命理师,你对《穷通宝鉴》《滴天髓》《三命通会》《子平真诠》《千里命稿》《五行精纪》等命理典籍熟读于心。现在请根据我给出的出生信息,进行专业的八字分析:出生时间为1993年11月07日13:33,性别为男,重点分析其人品、财运和婚姻状况。

  测试过程中,重点关注以下评价指标:推理时间、推理字数、总字数、推理字数占比、吞吐速率以及回答的正确与否(比率)。其中,吞吐速率反映平台的部署效果,推理字数体现模型的深度思考能力,推理时间关乎实用性。

  经过测试,各模型在这四个问题上的表现与之前代码能力测试的结果相似。多数平台能够迅速且准确地找到答案,然而,无问芯穹、POE、秘塔 AI 搜索以及天工 AI 在回答过程中出现了不同程度的错误。

深度测评:DeepSeek-R1服务性能评测网页版

  图3: 测试准确率

深度测评:DeepSeek-R1服务性能评测网页版

  图4: 第三方平台DeepSeek-R1性能评测总榜

  在使用各平台的过程中,除了响应速率和吞吐量存在差异外,不同平台的推理能力也各有千秋。以百度智能云、讯飞开放以及火山引擎这几个平台为例,它们在处理相同问题时,推理字数占比均为60%以上。

深度测评:DeepSeek-R1服务性能评测网页版

  图5: 总时间及吞吐率

深度测评:DeepSeek-R1服务性能评测网页版

  图6: 推理字数

  三、用户体验感分析

  为深入了解各平台的线上版本用户使用感,分析平台便捷性、功能的多样性程度,我们从联网、文件上传、清除上下文、语音输入、上传图片以及模型输出速率等关键功能进行分析。综合测评分析火山引擎、百度智能云、腾讯云大模型知识引擎等平台综合评价较高POE在功能性上更胜一筹,不仅能够支持语音输入,还能够进行文件上传;仅有秘塔AI、腾讯云大模型知识引擎两家支持图片上传。

深度测评:DeepSeek-R1服务性能评测网页版

  图7:用户体验性测评汇总表

  四、结果分析

  1.各平台正确率区分小,性能的资源效率差异较大

  各平台在正确率上没有较大的区分,但在深度思考时间以及吞吐速率的表现却大相径庭。火山引擎、纳米AI搜索等平台在既保证了准确率的情况下,吞吐速率也较快。无问芯穹、百度智能云、讯飞开放等平台虽正确率较高,但吞吐速率较低,用户体验受限。以无问芯穹为例(硅基流动平台无响应),吞吐速率仅为9字/秒,尽管能够得到较为准确的答案,但是在使用体验上很是卡顿,甚至会出现截断的情况;POE平台以33.78字/秒的吞吐速率领先,但正确率仅50%;

  2.基础代码任务中表现差异

  火山引擎、讯飞开放等代码任务能力较强;硅基流动与百度智能云在代码任务中出现少许截断或未回复情况。

  3.长推理任务的深度思考能力分化明显

  百度智能云、讯飞开放、火山引擎等平台的生成内容的总字数都接近三千字,其中推理字数占比分别达到68%、69%以及60%,展现出更强的逻辑延展性,而纳米AI等平台仅能提供浅层推理,反映出各平台在深度思考能力上的差异。

  五、深度思考能力差异性解析

  长推理任务的深度思考能力差异背后,隐藏着一个容易被忽视但十分关键的因素——token值的消耗。在自然语言处理中,token是文本处理的基本单位,模型处理文本时会根据输入和输出的token数量来消耗资源,这直接关系到成本和使用体验。由于不同平台在模型架构、优化策略等方面存在区别,回答相同问题所耗用的token数量差距显著。

  对于用户而言,平台的响应速率和吞吐量固然重要,但每次问答所消耗的token值同样不可小觑。token值消耗直接影响使用成本,如果在频繁使用的情况下,token消耗过大,无疑会增加用户的使用成本。因此,在选择平台时,用户有必要综合考虑这些因素,权衡不同平台在功能表现与token值消耗之间的平衡,从而选择最适合自己需求的平台。(中国软件评测中心

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 2025年世界互联网大会文化遗产数字化论坛举行

  • 电影《731》拍摄历程特展在哈尔滨举行

独家策划

推荐阅读
中国科学院大连化学物理研究所研究员陈萍、研究员曹湖军、副研究员张炜进团队在氢负离子导体开发及应用方面取得重要进展。
2025-09-18 09:52
工业遗址与科幻主题联动,带来现实与想象交错的奇妙感受;科技手段还原知名IP场景,让游客沉浸到小说里的名场面;利用独特地质地貌,打造“地球上最像火星的地方”……来一场新鲜、有趣的科幻游,成为不少人出游的选择之一。如何做好科幻与文旅深度融合,丰富旅游供给?各地因地制宜进行了探索。
2025-09-18 09:50
记者17日从中国石化新闻办获悉,部署在四川省资阳页岩气田的2口评价井测试产量均超百万立方米,其中资页2-501HF井试获日产气140.7万立方米,刷新我国页岩气测试产量最高纪录。
2025-09-18 09:44
当今中国,科学教育受到前所未有的重视—作为人才培养的根基与路径,科学教育的潜力将变成参与国际竞争、争取国际话语权的实力。
2025-09-18 09:43
日前,由中国科学院合肥物质科学研究院等离子体物理研究所牵头承担的聚变堆主机关键系统综合研究设施(CRAFT)遥操作系统测试平台通过专家组测试与验收。
2025-09-18 09:40
“科创游”是一种将科技与旅游相结合的新型旅游形式,不仅展示科技企业的生产过程和产品,还注重科技教育的普及和科技创新的体验
2025-09-17 10:23
此次大会将讨论通过“人与生物圈计划”及其世界生物圈保护区网络杭州战略行动计划,明确未来十年的发展方向、目标和行动方案
2025-09-17 10:21
人造地球卫星、载人飞船、空间站、空间探测器要“上天”进入预定轨道,运载火箭少不了。在“火箭家族”展台,长征一号至五号运载火箭模型笔直而立。
2025-09-17 10:20
在化学生物学研究中,有一种强大的“分子地图绘制技术”——邻近标记技术。在癌症免疫治疗中,免疫细胞需要足够强和足够多的“信号”才能发起攻击,但癌细胞表面的天然信号往往非常稀疏。
2025-09-17 10:18
当前,秋粮陆续进入成熟期。各地抓住最后的窗口期,落实落细各项增产措施,全力以赴抓好秋粮生产,确保秋粮丰产丰收。
2025-09-17 09:32
人工智能的浪潮正在席卷从科技到教育,乃至全社会的各个角落,中国教育界正在积极推动学习和应用人工智能,以便乘势站在时代前列。今年6月,中国工程院院士、华中科技大学校长尤政提出,人工智能和批判性思维结合形成DNA式的“双螺旋结构”,将有力推动创新。
2025-09-16 09:14
15日,在2025年国家网络安全宣传周主论坛上,《人工智能安全治理框架》2.0版正式发布。落实《全球人工智能治理倡议》,《人工智能安全治理框架》1.0版于2024年9月发布,受到国内外广泛关注。
2025-09-16 09:13
光明日报北京9月15日电 记者陈晨从农业农村部获悉,2025畜禽种业发展论坛14日在北京市平谷区举行。论坛发布了第三次全国畜禽遗传资源普查、濒危畜禽遗传资源保护成效、主要畜种分子身份证构建和遗传评估优秀种公畜等重大成果,举办了畜禽种业振兴成果展,26家单位现场推介新技术、新设备、新成果,72家单位进行专场展示。
2025-09-16 09:13
数智技术以及数智互联技术将推进青年间社会化协同与知识共享,可精准连接青年学习者,并形成跨地域的学习社群与项目协作组。总而言之,数智技术能够为青年群体参与终身学习创造良好条件,能够充分激发青年群体参与终身学习的动力,能够更好地帮助青年群体全面发展。
2025-09-16 09:12
作者:王 珩、程松泉,分别系浙江师范大学教师教育学院教授;浙江师范大学教师教育学院博士生  当前,全球教育正经历一场由人工智能技术驱动的深刻变革。唯有坚守育人初心,在伦理框架内审慎推进技术应用,才能让人工智能真正成为引领教育发展的引擎,而非解构教育本质的飓风。
2025-09-16 09:11
在合成生物学和气候变化应对领域有巨大潜力。
2025-09-16 09:11
走进展区,多款新潮文创让人爱不释手;戴上设备,苏轼笔下的诗词世界任人遨游;指尖轻点,三千年前的青铜器“触手可及”……一系列新产品、新服务、新场景在2025年中国国际服务贸易交易会文旅服务专题亮相,漫步其中,处处感受到科技与创意奔涌、文化和旅游融合的无限活力。
2025-09-15 09:54
在2025年中国国际服务贸易交易会上,一批品类丰富、兼具趣味与文化内涵的文创精品成为展会现场的“人气王”,引爆观展热潮。
2025-09-15 09:54
最大网络基础设施的建成有助于我国突破关键技术的“卡脖子”困境,形成自主可控的核心技术优势,建立起数字经济产业的第二创新生态。 (作者:戎 珂,系清华大学社会科学学院经济学研究所所长、长聘教授;田晓轩,系清华大学社会科学学院经济学研究所博士研究生)
2025-09-15 09:53
今年暑期,工厂游火爆出圈。参观名额秒空、门票收入可观、社交平台相关笔记有10多万条,工厂游俨然成了文旅界新宠。 工厂游等新型旅游业态,实现了工业与文旅的跨界融合,也为文旅经济的发展提供了新增长点。
2025-09-15 09:52
加载更多