点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek成功的底层逻辑及产业影响
首页> 科技频道> 人工智能 > 正文

DeepSeek成功的底层逻辑及产业影响

来源:人民邮电报2025-02-19 09:06

  仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。

  DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?

  本图片为AI生成并进行了人为后期加工。 遥歌/制作

  工程创新

  成就与众不同

  DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

  成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。

  DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。

  颠覆性改变

  打破传统叙事逻辑

  DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

  首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。

  其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。

  再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。

  最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。(作者:郑涛)

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中央军委举行晋升上将军衔仪式

  • “粤车南下”入境香港市区正式实施

独家策划

推荐阅读
我国自主设计建造的全球首制甲醇双燃料动力智能超大型油轮“凯拓”轮22日在辽宁大连成功交付。
2025-12-23 09:54
中国科学院大连化学物理研究所副研究员方光宗、研究员潘秀莲团队在乙炔氢氯化制氯乙烯研究领域取得新进展。
2025-12-23 09:53
《自然》杂志网站12月18日刊发文章,展望了2026年值得关注的科学事件,涉及人工智能(AI)、基因编辑和太空探索等多个领域。中国计划于2026年发射嫦娥七号探测器,目标是在布满岩石与陨石坑、着陆难度极大的月球南极附近着陆。
2025-12-23 09:52
9月30日,中国科学院上海应用物理研究所原所长徐洪杰去世半个月后,一场以追思和战略研讨为主题的“务虚会”在研究所召开。
2025-12-23 09:47
种子是“农业芯片”。精准设计育种这盘大棋,在科技工作者手中,正下得风生水起。
2025-12-23 03:05
12月17日,《自然》发布2025年值得关注的七大暖心科学故事,从基因编辑的多项突破,到传染病的快速防控,再到政策层面的重大胜利,都让人们为这一年感到高兴。
2025-12-22 09:57
记者21日从中国科学院大连化学物理研究所获悉,该所研究员李先锋团队在溴基多电子转移液流电池新体系研究方面取得新进展。
2025-12-22 09:56
微波加热,是维持“人造太阳”——全超导托卡马克核聚变实验装置(EAST)上亿摄氏度高温的核心技术之一。
2025-12-22 09:52
12月19日,《科学》在线发表了这项由中国科学家领衔的重要研究成果。
2025-12-22 09:50
记者了解到,作为农业科技“国家队”,近年来,该院依托西部中心,组建了高品质棉花生产模式、作物生物安全与防控等16支创新团队,把百余项技术成果转化运用到新疆这片热土。
2025-12-22 02:45
由我国多家研发单位联合完成的两项降糖减重药物Ⅲ期临床研究成果,北京时间18日在线发表于国际科学顶级学术期刊《自然》(《Nature》)。
2025-12-19 09:51
一个国际团队12月17日发表于《自然》的研究显示,70岁以上人群中,近1/10患有阿尔茨海默病。
2025-12-19 09:51
近日,“大国重器”中国天眼(FAST)又传来好消息。截至2025年11月5日,它已发现脉冲星1170颗,远超同期其他望远镜发现总数。
2025-12-19 09:48
国家自然科学基金重大非共识项目日前正式启动试点,首批遴选出3项建议资助项目,支持科研人员在国际科技竞争“无人区”开辟研究方向。
2025-12-19 09:47
《物理世界》日前公布“2025年度十大科学突破”榜单,中国科学院物理研究所/北京凝聚态物理国家研究中心张广宇团队主导的“首例二维金属制备”成果成功入选。
2025-12-19 09:45
中国科学技术大学教授潘建伟、张强等组成的研究团队与济南量子技术研究院、中国科学院半导体研究所等单位合作,通过混合集成分布式反馈激光器与薄膜铌酸锂光子芯片,成功实现了电泵浦片上集成的高亮度偏振量子纠缠光源,向集成化量子信息处理迈出重要一步。
2025-12-18 10:02
肺鱼,一种可以“绝境求生”的神奇生物,部分种类能在缺水时躲入泥中使用肺呼吸,直到雨季才复苏。借助高精度CT扫描与三维重建技术,乔妥、崔心东与团队其他成员对云南古嵴鱼展开了细致的关键形态特征观察。
2025-12-18 10:00
气温下降容易影响呼吸系统和循环系统。
2025-12-18 09:59
在这些应用成果中,人工智能大模型赋予机器人“大脑”,具身智能赋予机器人“小脑”与“四肢”,让它们学会像人一样思考和行动。蒸汽机延伸了人类的体能,计算机延伸了人类的智能,具身智能意味着一个“人机共生”的新纪元——机器人不再是冷冰冰的机器,而是生产生活中的得力伙伴。
2025-12-18 09:50
其中,“泛在操作系统”“高性能制造”“深部固体资源流态化开采”“超级微创手术”4项体系化新名词,均为我国科学家率先提出。超级微创手术经由自然腔道、隧道、穿刺通道、多腔隙通道,构建起覆盖全器官系统的技术体系。
2025-12-18 09:49
加载更多