中国的“ChatGPT时刻”来临？

来源：解放日报2025-01-28 11:01

　　本报记者查睿裘雯涵

　　1月26日—27日，短短两天内，国内AI创业公司DeepSeek（深度求索）遭遇两次短暂宕机，DeepSeek将其归因为新模型发布后导致访问量激增。

　　新模型指的是刚发布的推理大模型DeepSeek-R1，由此带来的访问量有多大？27日，DeepSeek在苹果美区应用商店下载量力压ChatGPT，登顶免费App下载排行榜。

　　2024年12月，DeepSeek发布新一代大语言模型V3，已引起行业不少讨论。1月20日发布的R1，将DeepSeek的热度推向了高潮。

　　一年多时间内，DeepSeek成为大模型行业的“黑马”，是否意味着国内大模型迎来弯道超车的机会？

　　硅谷都在谈论DeepSeek

　　在硅谷，几乎每个人都在谈论DeepSeek。有报道称，硅谷“被吓坏了”，工程师正在疯狂分析DeepSeek。还有说法称，这是中国的“ChatGPT时刻”。

　　DeepSeek究竟厉害在哪？高性能、低成本、开源是外界提到的高频词。

　　舆论注意到，DeepSeek的推理计算效率极高，可以与业内一些顶尖的AI模型相媲美，与美国硅谷前沿发展保持同步。国外大模型排名榜单Arena最新测评显示，R1基准测试在全类别大模型中排名第三，其中在风格控制分类中与OpenAI o1并列第一，得分达到1357分，甚至略超OpenAI o1。这也几乎意味着，DeepSeek-R1跻身全球最强大模型之列。

　　DeepSeek的官方测试也显示，R1在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版。在各自小参数版本的模型比拼中，R1-32B的数学推理明显优于o1-mini。

　　加利福尼亚大学伯克利分校教授亚历克斯·迪马基评价，DeepSeek的技术路线揭示了达到顶尖性能未必需要天文数字投入，“这对硅谷的烧钱竞赛无异于釜底抽薪”。

　　DeepSeek有多便宜？有数据显示，Deepseek V3的训练成本仅为558万美元，不足GPT-4o的二十分之一。推理模型R1的API（应用程序编程接口）服务定价为每百万tokens（词元）仅需1元（缓存命中）/4元（缓存未命中），每百万输出tokens为16元。大语言模型V3就更便宜了，每百万tokens仅需0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens为2元。DeepSeek的定价约等于Llama 3-70B的七分之一，GPT-4 Turbo的七十分之一。

　　开源是DeepSeek备受关注的另一个重要原因。这意味着它已经与其他企业和研究人员共享基础代码，其他人能用相同的技术构建和发布自己的产品。

　　英伟达资深科学家吉姆·范称赞DeepSeek是“非美国公司践行OpenAI初心”的典范，通过开放技术细节和训练方法，为全球研究者赋能。

　　出身国内算力最充足企业

　　天眼查信息显示，DeepSeek背后的实控人是梁文锋，他所创立的幻方量化是国内知名的量化私募基金，这也给DeepSeek打下了良好的算力基础。

　　不同于常规基金依赖基金经理，量化基金通过数量模型的计算寻找投资机会，因此对数据尤为敏感，高频交易更是离不开机器学习。为了从海量数据中挖掘投资机会，幻方量化早早开始囤积算力，先后斥资10亿元，在美国对芯片出口管制前购买了1万张英伟达A100型号GPU。机缘巧合下，幻方量化成为国内GPU算力最充足的企业之一。

　　AI行业有条规模化法则，简单来说，就是算力越大、参数越多，训练出的大模型性能就越好。如果遵照这条规则，幻方量化的算力基础，成了DeepSeek最大的王牌之一。

　　当然，光靠算力优势，DeepSeek显然无法与全球AI巨头抗衡。“DeepSeek爆火主要是创新的技术路线。”上海人工智能行业协会秘书长钟俊浩认为，架构机制、训练方法和管道并行算法等创新，展现了中国本土AI技术的潜力，颠覆了中国只是AI技术跟随者、应用方的传统认知。

　　英国科技网站“生命科学”撰稿人本·特纳指出，美国限制向中企出口先进AI计算芯片，迫使DeepSeek-R1研发者采用更智能、更有效的算法，弥补计算能力的不足。ChatGPT据报道需要1万台英伟达的图像处理器处理训练数据，DeepSeek称仅用2000台图像处理器就取得了类似结果。

　　DeepSeek公布的技术论文显示，R1在训练过程中实验了三种技术路径：直接强化学习、多阶段渐进训练和模型蒸馏，其中R1首次证明了直接强化学习的有效性。科技媒体在技术解读中打了个比方，面对同一道题目，大模型同时多次进行回答，系统将给每个答案打分，依照“高分奖励低分惩罚”的逻辑进行循环，最终得出更具优势的推理路径。

　　中国“正在全力冲刺”

　　“元”公司首席执行官扎克伯格日前在一档播客节目中坦言，DeepSeek技术非常先进。他表示，中国“正在全力冲刺”，担心这个开源模型会被全世界广泛使用，影响到美国科技行业的领先地位。

　　一些美国专家也评论称，如果最好的开源技术来自中国，美国开发人员将在这些技术之上构建他们的系统，“从长远来看，这可能会让中国成为研发AI的中心”。

　　在华盛顿州工作的技术专家阿尔文·王·格雷林认为，DeepSeek的进展显示，美国的领先优势正在缩小，各国应该采取合作方式建设先进AI，而不是在AI领域进行“军备竞赛”。

　　在长文本交互和多模态的全球竞争中，国内大模型已经崭露头角，随着大模型推理能力的迭代，中国还有机会弯道超车。钟俊浩认为，高效利用计算资源、相对较低的成本，以及更高的市场活跃度，是国内训练推理大模型的优势所在。他表示，国内面临高端算力芯片紧缺的难题，但推理大模型能更集约利用有限的算力资源，同时国内算力基础设施较为完备，训练硬件成本较低。

　　更重要的是，中国的人工智能市场处于开放竞争的状态，不仅有阿里、字节、商汤等大型AI厂商，还有阶跃星辰、MiniMax等高水平的AI创业企业。更多市场参与者，就有更多创新想法，意味着市场更活跃。

　　此外，中国具有极强的政策引导能力。例如上海发布“模塑申城”实施方案，就进一步明确“5+6”应用场景，为人工智能企业在推理方面的应用拓宽了发展空间，加速其商业化进程。

[ 责编：战钊 ]

阅读剩余全文（）