点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek成功的底层逻辑及产业影响
首页> 科技频道> 人工智能 > 正文

DeepSeek成功的底层逻辑及产业影响

来源:人民邮电报2025-02-19 09:06

  仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。

  DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?

  本图片为AI生成并进行了人为后期加工。 遥歌/制作

  工程创新

  成就与众不同

  DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

  成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。

  DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。

  颠覆性改变

  打破传统叙事逻辑

  DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

  首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。

  其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。

  再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。

  最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。(作者:郑涛)

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 铁路物流运输助力春耕生产

  • 辽宁营口:“北粮南运”运输忙

独家策划

推荐阅读
最近,全国多地将DeepSeek等人工智能系统应用于政务和公共服务。
2025-02-20 14:40
DeepSeek引发的冲击波仍在持续:不仅多个平台宣布接入DeepSeek,各个行业也密集搭上这趟“快车”。2月4日,DeepSeek系列大模型正式上线昇腾社区,开发者可一键获取DeepSeek系列模型,并支持昇腾硬件平台上开箱即用。
2025-02-20 10:02
近日,全国首套大型智能化森林火灾救援处置训练设施顺利通过最终验收,在国家西南应急救援中心正式交付使用。
2025-02-20 02:50
19日,科学家们在国际学术期刊《天体物理杂志快报》发布了“天关”卫星的最新发现。
2025-02-20 02:50
夜幕低垂,驾车穿行在贵州兴义环城高速公路的隧道中,柔和光线如点点星光洒下,为隧道披上一层温暖的光纱,照亮往来的车辆。
2025-02-20 02:50
近日,习近平总书记在听取吉林省委和省政府工作汇报时强调,要推进科技创新同产业创新深度融合,整合科研资源和力量,强化企业创新主体地位,优化创新生态,力争在一批重大科技专项上取得新突破,推动科技成果向现实生产力转化。
2025-02-20 02:50
在万里风沙线上筑起“绿色长城”
2025-02-19 09:48
近日,由中国科学院空天信息创新研究院(空天院)研制的直升机航空大地电磁探测系统,成功应用于高原铁路建设工程。
2025-02-19 09:47
由南方科技大学、粤港澳大湾区量子科学中心与清华大学联合组成的研究团队于2月18日在国际学术期刊《自然》线上发表研究成果。
2025-02-19 09:45
18日从中国科协第十届全国委员会第九次会议上获悉,2024年,我国在科技人才培养、科技期刊建设、公民科学素质建设、国际民间科技交流、规范学术团体治理等领域取得进展。
2025-02-19 09:44
2025年开年以来,人工智能(AI)技术继续保持迅猛发展的态势。
2025-02-19 09:42
我国新型储能制造业全链条国际竞争优势凸显,优势企业梯队进一步壮大,产业创新力和综合竞争力显著提升,实现高端化、智能化、绿色化发展。
2025-02-18 09:33
新修订的科学技术普及法自2024年12月25日起施行。宣传贯彻科学技术普及法座谈会17日在京召开,全国人大常委会副委员长蔡达峰出席会议并讲话。
2025-02-18 09:32
迈着深深浅浅的步子走进葡萄园,脚下,枯叶作被覆盖着泥土;头顶,休眠的葡萄枝上零星挂着卷曲的叶子。果农们在葡萄架下来回穿梭,剪刀在手中翻飞,老练地修剪着葡萄枝条,随后,有条不紊地完成着开沟、窝肥、清园等“冬管清单”。
2025-02-18 09:32
2月13日,北京儿童医院,13位知名专家对1位8岁男孩的疑难病例展开缜密讨论。主持人是北京儿童医院院长、耳鼻咽喉头颈外科专家倪鑫,专家们则来自神经外科、肿瘤外科、口腔科等科室。
2025-02-18 09:28
2024年度河南省科学技术奖励名单上,河南农业大学“‘醛’球无敌”博士后科研团队的《木制细胞低碳增强结合关键技术》项目赫然在列。团队负责人彭万喜难掩笑意:“自2021年在全国博士后创新创业大赛拿金奖后,我们团队就荣誉不断。这背后,是国家对甲醛防控治理的日益重视。”
2025-02-18 09:27
重塑金身,树皮、籽壳和叶脉中的杜仲胶可作为首选材料。
2025-02-18 08:56
农业农村部近日制定印发《全国农业科技创新重点领域(2024—2028年)》,要求聚焦十大重点领域,加快推进高水平农业科技自立自强。
2025-02-17 10:16
2024年,中国智能算力规模达725.3百亿亿次/秒(EFLOPS),同比增长74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上;市场规模为190亿美元,同比增长86.9%。
2025-02-17 10:14
我国第三代自主超导量子计算机“本源悟空”全球访问量突破2000万次,刷新了我国自主量子算力服务规模纪录。
2025-02-17 10:14
加载更多