点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek成功的底层逻辑及产业影响
首页> 科技频道> 人工智能 > 正文

DeepSeek成功的底层逻辑及产业影响

来源:人民邮电报2025-02-19 09:06

  仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。

  DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?

  本图片为AI生成并进行了人为后期加工。 遥歌/制作

  工程创新

  成就与众不同

  DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

  成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。

  DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。

  颠覆性改变

  打破传统叙事逻辑

  DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

  首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。

  其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。

  再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。

  最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。(作者:郑涛)

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平抵达阿斯塔纳出席第二届中国—中亚峰会

  • 科学报国正当时|从日常用品到尖端科技,高分子材料如何改变世界?

独家策划

推荐阅读
水利部近日印发《关于积极探索和规范推进黄河流域跨省区用水权交易的意见》,对当前和今后一个时期黄河流域跨省区用水权交易作出总体安排和部署。
2025-06-16 09:55
可仅通过一个人的呼吸模式识别其身份,准确率高达96.8%。不仅如此,鼻部呼吸的这些“指纹”还能揭示个体的身体与心理健康状况。
2025-06-16 09:52
2023年5月,依托中国科学院高能物理研究所建设的“文物领域核技术应用与装备国家文物局重点科研基地”正式获批。
2025-06-16 09:50
6月14日,在中核集团秦山核电内,经重水堆辐照过后的钇-90玻璃微球顺利出堆,经检测,该批钇-90玻璃微球比活度等参数满足设计需求。
2025-06-16 09:50
新农人之“新”,不仅是身份上的“新来”之意,更在于他们的技能、理念、思维之新。
2025-06-16 09:49
2025年3月,国家重大科技基础设施——子午工程二期正式通过验收,建成了国际上综合实力最强的空间天气地基区域监测网络。
2025-06-13 09:45
前不久,一场人形机器人格斗擂台赛引发了全球关注。
2025-06-13 09:44
系外行星大气研究对理解行星形成、演化和宜居性具有重要意义。
2025-06-13 09:38
地磁暴,是由太阳表面活动引起的地球磁场全球性剧烈扰动现象。据中国气象局国家空间天气监测预警中心消息,受5月31日太阳爆发活动影响,北京时间6月1日14时至2日14时,先后出现了6小时特大地磁暴。
2025-06-13 09:37
中外科学家团队在广东省肇庆市怀集县取得四足类足迹的重要发现,首次记录了华南白垩纪地层的哺乳形类及恐龙足迹组合。
2025-06-13 09:35
“如果你是一名文科生,将有机会学习数学和计算机,将来可能成为人工智能方面的研究生”,这是不久前,复旦大学教育教学改革发布会上传出的消息。
2025-06-12 18:17
一种新的神经细胞网络是造成这一现象的原因。
2025-06-12 09:52
这一机器人仿生手灵感源于人类手部的生物智慧。
2025-06-12 09:46
冬虫夏草学名叫“中华线虫草”,其实是一种寄生蝙蝠蛾幼虫的真菌。线虫草在白垩纪就已经寄生蚂蚁的基干类群,学会了“操控蚂蚁”,而这类寄生蚂蚁的线虫草,正是如今最繁盛的一支。
2025-06-12 09:43
来自NASA的3位科学家分析了2020—2024年间坠落地球的523颗“星链”卫星在不同太阳活动水平的轨道变化。美国《商业内幕》网站报道称,很多科学家担心“星链”卫星可能会以人们尚不了解的方式破坏大气层。
2025-06-12 09:40
天气越来越热,我们中医院急诊西北角的药膳坊门前,同样“火热”。现在,“中医药+餐饮”在很多地方越来越火,药膳面包等产品吸引了很多消费者,也带动了更多人了解中医药知识和养生理念。
2025-06-12 09:37
中毒、缺氧、病原体侵袭……这些突如其来的“变故”会诱发生命应激反应。
2025-06-11 09:27
传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正“理解”物体含义。
2025-06-11 09:26
为满足小农户的粮食干燥需求,该所联合国内多家单位研制出智能化可移动牵引式烘干机。
2025-06-11 09:25
近日,国家发展改革委、国家能源局发布《关于有序推动绿电直连发展有关事项的通知》,提出以满足企业绿色用能需求、提升新能源就近就地消纳水平为目标,建设绿电直连项目。
2025-06-11 09:23
加载更多