点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek成功的底层逻辑及产业影响
首页> 科技频道> 人工智能 > 正文

DeepSeek成功的底层逻辑及产业影响

来源:人民邮电报2025-02-19 09:06

  仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。

  DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?

  本图片为AI生成并进行了人为后期加工。 遥歌/制作

  工程创新

  成就与众不同

  DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

  成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。

  DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。

  颠覆性改变

  打破传统叙事逻辑

  DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

  首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。

  其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。

  再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。

  最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。(作者:郑涛)

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 你想成为“造物者”吗?学生物技术专业吧!

  • 中国救援队和中国国际救援队通过联合国复测

独家策划

推荐阅读
“全部科技史都证明,谁拥有了一流创新人才、拥有了一流科学家,谁就能在科技创新中占据优势。”习近平总书记始终关注着科技创新,始终牵挂着科技人才。
2025-05-30 12:19
在第九个全国科技工作者日到来之际,29日凌晨,带着人类对宇宙星辰的向往,天问二号探测器直冲霄汉,开启我国首次小行星探测与采样返回之旅,迈出了深空探测新一步。
2025-05-30 12:17
“背包问题”是计算机科学中经典的NP完全问题(非确定性图灵机多项式复杂度求解的决定问题),可应用在不同领域的决策,如寻找减少原材料使用、投资组合的选择、密钥产生等最优化搜寻路径。
2025-05-30 03:05
历时208天,总航程4万余海里,“雪龙2”号极地科考破冰船于28日抵达海南海口,标志着中国第41次南极考察队顺利完成全部考察任务。
2025-05-30 03:05
中国科学院分子细胞科学卓越创新中心研究员陈玲玲团队揭示了灵长类动物特有的细胞核应激小体(nSBs)的运作奥秘,为理解生命如何应对外界刺激、调节过度炎症反应打开新思路,也为脓毒血症诊疗提供了全新视角。
2025-05-30 10:26
随着航天技术发展,科学家在利用空间探测器开展行星探测任务时,有时会让探测器在路过小行星时“搂草打兔子”,顺道拍几张照片。
2025-05-30 10:23
在5月29日国新办举行的“新征程上的奋斗者”中外记者见面会上,中交集团天山胜利隧道全断面硬岩掘进机“天山号”操作手崔华新分享了他操作“天山号”参与天山胜利隧道超级工程建设的故事。
2025-05-30 10:22
随着数字化浪潮席卷全球,人工智能(AI)作为引领新一轮科技革命的战略性技术,不断加速突破并重塑着农业新格局。
2025-05-29 08:51
方案提出,到2027年,电子信息制造业数字化转型、智能化升级的新型信息基础设施基本完善,规模以上电子信息制造业企业关键工序数控化率超过85%,先进计算、人工智能深度赋能行业发展。典型场景解决方案全面覆盖,形成100个以上典型场景解决方案。
2025-05-29 08:50
生物正交反应,是指可以在生物体内发生,但又和正常生物过程互不干扰的化学反应。
2025-05-29 08:48
围绕计量测试中“测不了、测不全、测不准”的痛点难点,以重大项目为牵引,集中重点单位、强化协同创新,大力推进计量测试关键技术攻关。
2025-05-29 08:47
研究发现,温室内的湿度变化首先为病原菌孢子的传播提供了条件。
2025-05-29 08:21
睡前只需服用一粒药丸就能不再佩戴笨重面罩入睡,这对部分阻塞性睡眠呼吸暂停(OSA)患者来说,可能即将梦想成真。
2025-05-28 09:30
据英国《每日电讯报》26日消息称,美国开放人工智能研究中心(OpenAI)开发的高级人工智能(AI)模型o3,在接收到明确的关机指令后,不仅拒绝执行,还主动干预其自动关机机制。
2025-05-28 09:24
记者5月26日从北京大学获悉,该校环境科学与工程学院教授要茂盛团队研发了空气毒性活体监测系统(以下简称ATMS),实现了对空气污染健康效应的原位、实时、在线监测,有望为优化空气污染控制策略和公众健康防护提供技术支撑。
2025-05-28 09:24
保障粮食储存安全是粮食流通领域科技攻关的核心任务,粮食科研人员深入贯彻绿色发展理念,研发系列粮食仓储技术成果,在粮食仓储领域推广应用,取得良好成效。
2025-05-28 09:19
数据显示,地球陆地上可开采锂资源仅约2200万吨,海水中却蕴藏2300亿吨锂。然而,高效、绿色的海水提锂技术被视作科研界难啃的“硬骨头”。
2025-05-28 09:18
“黑夜给了我黑色的眼睛,我却用它寻找光明。”
2025-05-27 13:22
“世界杰出女科学家奖”由联合国教科文组织和法国欧莱雅基金会在1998年联合设立
2025-05-27 11:10
无法释放起落架的民航客机在巨大的摩擦声中以机腹着地方式从跑道上滑过,高速进入大气层的空天飞机像一个“火球”剧烈燃烧,大型运输机在超强暴风雪中艰难起飞,先进战斗机在复杂空战环境中被导弹碎片打得千疮百孔……
2025-05-27 09:27
加载更多