DeepSeek 触发的技术风暴:中美 AI 竞争白热化,全球卷入漩涡

360影视 2025-02-02 01:35 2

摘要:在人工智能领域迅猛发展的当下,一场由 DeepSeek 触发的技术风暴正以惊人的速度席卷而来,使得中美 AI 竞争愈发白热化,全球也无可避免地被卷入这场科技变革的巨大漩涡之中。知名科技分析网站 Stratechery 发表的一篇万字长文,犹如一把锐利的手术刀,

在人工智能领域迅猛发展的当下,一场由 DeepSeek 触发的技术风暴正以惊人的速度席卷而来,使得中美 AI 竞争愈发白热化,全球也无可避免地被卷入这场科技变革的巨大漩涡之中。知名科技分析网站 Stratechery 发表的一篇万字长文,犹如一把锐利的手术刀,精准地剖析了这场风暴下与 DeepSeek 紧密相关的核心问题。

DeepSeek 的 V3 和 R1 模型,无疑是这场技术风暴中的关键 “风暴眼”。这两款模型所蕴含的意义,远不止于技术层面的突破。它们代表着一种全新的技术范式,是 DeepSeek 在人工智能算法、架构以及应用场景拓展等多方面创新的结晶。V3 和 R1 的出现,为 AI 技术的发展开辟了新的路径,吸引着全球科研人员和科技企业的目光,也成为中美两国在 AI 领域角逐的重要关注点。

在这场技术风暴中,英伟达作为全球 GPU 领域的霸主,也不可避免地受到了 DeepSeek 的影响。这种影响并非单一维度的,它既体现在市场份额的潜在变动上,也反映在技术发展方向的调整上。英伟达长期以来在 AI 计算领域凭借其强大的 GPU 产品占据主导地位,但 DeepSeek 的技术崛起,为市场带来了新的变量。这促使英伟达重新审视自身的技术优势和市场策略,以应对来自 DeepSeek 的挑战。

随着 DeepSeek 技术影响力的不断扩大,其是否应当接受监管也成为了一个备受关注的关键议题。在全球范围内,AI 技术的快速发展在带来巨大机遇的同时,也引发了一系列关于数据隐私、算法偏见、安全风险等方面的担忧。DeepSeek 作为 AI 领域的重要参与者,其技术的广泛应用和传播必然需要在合理的监管框架下进行,以确保技术的发展符合人类社会的整体利益和价值观。这一议题不仅涉及到技术本身,更与全球的法律、政策和社会伦理紧密相连,成为全球各国共同探讨和决策的重要内容。

Stratechery 发表的一篇万字长文全文如下

关于 DeepSeek,

我们需要了解的一切

我承担责任。我坚持这篇文章,包括我强调的两个最大要点(通过纯强化学习形成的思维链和蒸馏的力量),以及我提到的低成本(我在Sharp Tech中对此进行了扩展)和芯片禁令的影响,但这些观察太局限于人工智能的当前最新水平。我完全没有预料到的是,这则新闻会对整个元讨论产生更广泛的影响,尤其是对美国和中国而言。

有发生过此类失误的先例吗?

有。2023 年 9 月,华为宣布推出搭载中芯国际制造的 7nm 芯片的 Mate 60 Pro。对于那些密切关注的人来说,这款芯片的存在并不意外:中芯国际一年前就已经制造了一款 7nm 芯片(我甚至更早就已经注意到了它的存在),台积电仅使用 DUV 光刻技术就批量出货了 7nm 芯片(7nm 的后续迭代首次使用 EUV)。英特尔几年前也曾仅使用 DUV 制造过 10nm(台积电 7nm 等效)芯片,但无法获得可观的收益;中芯国际可以使用现有设备出货 7nm 芯片的想法并不奇怪,特别是如果他们不关心收益的话——至少对我来说是这样。

我完全没有预料到的是华盛顿特区的过度反应。芯片禁令的急剧扩大最终导致拜登政府将芯片销售转变为基于许可的结构,这是由于人们不了解芯片生产的复杂性,并且对华为 Mate 60 Pro 完全措手不及。我感觉过去 72 小时也发生了类似的事情:DeepSeek 所取得的成就(以及他们没有取得的成就)的细节并不比人们的反应以及这种反应对人们先前存在的假设的说明更重要。

那么 DeepSeek 宣布了什么?

最接近本周末崩盘的消息是R1,这是一个类似于 OpenAI 的推理模型o1。然而,导致崩盘的许多消息(包括 DeepSeek 的培训成本)实际上是V3在圣诞节期间发布的。此外,支撑崩盘的许多突破V3实际上是在去年 1 月模型发布时揭晓的V2。

这个模型命名约定是不是OpenAI犯下的最大罪行呢?

第二伟大的;我们马上就会谈到最伟大的。

让我们回过头来思考:V2 模型是什么,为什么它很重要?

DeepSeekV2模型带来了两项重要突破:DeepSeekMoE 和 DeepSeekMLA。DeepSeekMoE 中的“MoE”指的是“专家混合”。有些模型(如 GPT-3.5)在训练和推理过程中都会激活整个模型;然而,事实证明,并非模型的每个部分对于当前主题都是必要的。MoE 将模型拆分为多个“专家”,只激活必要的专家;GPT-4 是一个 MoE 模型,据信每个专家有 16 位专家,每位专家约有 1100 亿个参数。

DeepSeekMoE 在 中实现V2,对这一概念进行了重大创新,包括区分更细粒度的专业专家和具有更通用功能的共享专家。至关重要的是,DeepSeekMoE 还引入了训练期间负载平衡和路由的新方法;传统上,MoE 会增加训练中的通信开销以换取高效的推理,但 DeepSeek 的方法也使训练更加高效。

DeepSeekMLA 是一个更大的突破。推理的最大限制之一是所需的大量内存:您既需要将模型加载到内存中,也需要加载整个上下文窗口。上下文窗口在内存方面特别昂贵,因为每个标记都需要一个键和相应的值;DeepSeekMLA 或多头潜在注意力可以压缩键值存储,从而大大减少推理期间的内存使用量。

我不确定我是否理解了这些。

这些突破的关键意义——以及你需要理解的部分——只有在 中才变得显而易见V3,它增加了一种新的负载平衡方法(进一步减少通信开销)和训练中的多令牌预测(进一步密集化每个训练步骤,再次降低开销):V3训练成本低得惊人。DeepSeek 声称模型训练耗时 2,788 千个 H800 GPU 小时,按每 GPU 小时 2 美元计算,仅为 557.6 万美元。

这似乎低得不可能。

DeepSeek 明确表示,这些成本仅针对最后的训练运行,不包括所有其他费用;摘自论文V3:

最后,我们再次强调 DeepSeek-V3 经济的训练成本,这在表 1 中进行了总结,这是通过我们优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个 token 上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,花费了 2664K GPU 小时。加上上下文长度扩展的 119K GPU 小时和后训练的 5K GPU 小时,DeepSeek-V3 的完整训练仅花费 278.8 万 GPU 小时。假设 H800 GPU 的租赁价格为每小时 2 美元,我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与架构、算法或数据的先前研究和消融实验相关的成本。

所以,你不可能以 557.6 万美元的价格复制 DeepSeek 公司。

我至今仍不相信这个数字。

实际上,至少在您了解架构之后,举证责任就在怀疑者身上V3。记住有关 DeepSeekMoE 的一点:V3 有 6710 亿个参数,但活动专家中每个令牌仅计算 370 亿个参数;这相当于每个令牌 3333 亿个 FLOP 计算。这里我应该提到另一项 DeepSeek 创新:虽然参数以 BF16 或 FP32 精度存储,但它们在计算时降低到 FP8 精度;2048 个 H800 GPU 的容量为 3.97 exoflops,即 39.7 亿亿个 FLOPS。同时,训练集由 14.8 万亿个令牌组成;一旦您完成所有数学运算,就会发现 280 万个 H800 小时足以进行训练V3。再次重申,这只是最终运行,而不是总成本,但这是一个合理的数字。

Scale AI 首席执行官 Alexandr Wang表示,他们拥有 50,000 辆 H100

我不知道王先生的信息是从哪里得来的;我猜他指的是Dylan Patel 在 2024 年 11 月发的这条推文,上面说 DeepSeek 有“超过 50k 个 Hopper GPU”。然而,H800 是 Hopper GPU,只是由于美国的制裁,它们的内存带宽比 H100 受限得多。

事情是这样的:我上面解释的大量创新都是为了克服使用 H800 而不是 H100 所隐含的内存带宽不足问题。此外,如果你真的对上一个问题做了计算,你就会意识到 DeepSeek 实际上有多余的计算量;这是因为 DeepSeek 实际上对每个 H800 上的 132 个处理单元中的 20 个进行了编程,专门用于管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek工程师不得不降级到 PTX,这是 Nvidia GPU 的低级指令集,基本上就像汇编语言一样。这是一个疯狂的优化级别,只有在使用 H800 时才有意义。

同时,DeepSeek 还使他们的模型可用于推理:这需要大量的 GPU,远远超出用于训练的 GPU。

那么这是否违反了芯片禁令?

不。芯片禁令禁止使用 H100,但 H800 除外。每个人都认为训练前沿模型需要更多的芯片间内存带宽,但这正是 DeepSeek 优化其模型结构和基础设施的目的。

再次强调这一点,DeepSeek 在设计此模型时做出的所有决定只有受限于 H800 时才有意义;如果 DeepSeek 可以使用 H100,他们可能会使用更大的训练集群,而专门针对克服带宽不足的优化会少得多。

那么V3这是一种领先的模型吗?

它绝对可以与 OpenAI4o和 Anthropic 的 Sonnet-3.5 相媲美,而且似乎比 Llama 最大的模型更好。似乎 DeepSeek 能够提炼这些模型以提供V3高质量的 token 进行训练。

什么是蒸馏?

提炼是一种从另一个模型中提取理解的方法;你可以将输入发送到教师模型并记录输出,然后使用它来训练学生模型。这就是你从 GPT-4 获得像 GPT-4 Turbo 这样的模型的方式。对于公司来说,在自己的模型上进行提炼更容易,因为他们拥有完全访问权限,但你仍然可以通过 API 以稍微笨拙的方式进行提炼,或者,如果你有创意,甚至可以通过聊天客户端进行提炼。

蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是通过 IP 禁令、速率限制等方式实际切断访问。蒸馏在模型训练方面被认为是普遍存在的,这就是为什么越来越多的模型向 GPT4o质量靠拢。这并不意味着我们确切知道 DeepSeek4o或 Claude 蒸馏了模型,但坦率地说,如果他们不知道,那才是奇怪的。

对于前沿模型来说,蒸馏似乎很糟糕。

是的!从积极的一面来看,OpenAI、Anthropic 和 Google 几乎肯定会使用蒸馏来优化他们用于面向消费者的应用程序的推理模型;从消极的一面来看,他们实际上承担了培训前沿技术的全部成本,而其他人则搭了他们的便车。

事实上,这可能是微软和 OpenAI 缓慢分道扬镳的核心经济因素。微软有兴趣为其客户提供推理服务,但不太愿意投资 1000 亿美元的数据中心来训练前沿模型,因为这些模型很可能在这 1000 亿美元贬值之前就被商品化。

这就是所有大型科技公司股价下跌的原因吗?

从长远来看,模型商品化和更便宜的推理(DeepSeek 也证明了这一点)对大型科技公司来说非常有利。如果微软能够以极低的成本为客户提供推理服务,那么这意味着微软在数据中心和 GPU 上的支出会更少,或者,考虑到推理成本要低得多,使用率可能会大幅提高。另一个大赢家是亚马逊:AWS 总体上未能打造出自己的高质量模型,但如果有非常高质量的开源模型,它们可以以远低于预期的成本提供服务,那么这并不重要。

苹果也是大赢家。推理所需的内存需求大幅减少,使边缘推理更加可行,而苹果拥有最好的硬件。Apple Silicon 使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池;这意味着苹果的高端硬件实际上拥有最好的推理消费芯片(Nvidia 游戏 GPU 的最大 VRAM 为 32GB,而苹果的芯片的最大 RAM 为 192 GB)。

与此同时,Meta 是最大的赢家。去年秋天,我已经阐述了Meta 业务的各个方面如何从人工智能中受益;实现这一愿景的一大障碍是推理成本,这意味着,考虑到 Meta 需要保持领先地位,推理成本大幅降低——以及训练成本大幅降低——将使这一愿景更容易实现。

与此同时,谷歌的情况可能更糟:硬件要求降低的世界削弱了他们相对于 TPU 的相对优势。更重要的是,零成本推理的世界增加了取代搜索的产品的可行性和可能性;当然,谷歌的成本也降低了,但任何改变现状的行为都可能是负面的。

我问为什么股价下跌;你只是描绘了一幅积极的画面!

我描绘的是长期的;今天是短期的,市场似乎正在努力克服 R1 存在的冲击。

等等,你还没谈论R1呢。

R1是一种类似 OpenAI 的推理模型o1。它能够思考问题,产生更高质量的结果,特别是在编码、数学和逻辑等领域(但我重复了一遍)。

这比更令人印象深刻吗V3?

实际上,我之所以花费这么多时间,V3是因为这个模型实际上展示了很多似乎引起了如此多惊讶和争议的动态。R1然而,值得注意的是,因为o1它是市场上唯一的推理模型,也是 OpenAI 作为市场领导者的最明显标志。

R1在几个重要方面打破了o1神话。首先,它确实存在。OpenAI 没有某种无法复制的特殊配方。其次,R1像所有 DeepSeek 模型一样,它具有开放权重(说“开源”的问题在于我们没有创建它的数据)。这意味着,你不必向 OpenAI 付费来获得推理,而是可以在你选择的服务器上运行R1,甚至可以在本地运行,成本大大降低。

DeepSeek 是怎样制作的R1?

DeepSeek 实际上制作了两个模型:R1和R1-Zero。我实际上认为R1-Zero 更重要;正如我上面提到的,这是我上周二更新中关注的重点:

R1-不过,在我看来,零才是最重要的。摘自报纸:

在本文中,我们迈出了使用纯强化学习 (RL) 提升语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯 RL 过程进行自我进化。具体来说,我们使用 DeepSeek- V3-Base 作为基础模型,并使用 GRPO 作为 RL 框架来提高模型的推理性能。在训练过程中,DeepSeek- R1-Zero 自然而然地涌现出许多强大而有趣的推理行为。经过数千个 RL 步骤,DeepSeek- R1-Zero 在推理基准上表现出超强性能。例如,AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI- -0912 的性能相当o1。

强化学习是一种为机器学习模型提供大量数据和奖励函数的技术。经典示例是 AlphaGo,DeepMind 为模型提供了围棋规则以及获胜奖励函数,然后让模型自行解决其他所有问题。众所周知,这种方法比其他更受人类指导的技术效果更好。

然而,迄今为止,法学硕士 (LLM) 一直依赖于带有人类反馈的强化学习;人类参与其中,帮助指导模型,在奖励不明显的情况下做出艰难的选择,等等。RLHF 是将 GPT-3 转变为 ChatGPT 的关键创新,具有格式良好的段落、简洁的答案,不会变成胡言乱语,等等。

R1然而,Zero 放弃了 HF 部分——它只是强化学习。DeepSeek 为模型提供了一组数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,一个用于利用思考过程的正确格式。此外,该技术很简单:DeepSeek 不是试图逐步评估(过程监督),也不是搜索所有可能的答案(像 AlphaGo 一样),而是鼓励模型一次尝试几个不同的答案,然后根据两个奖励函数对它们进行评分。

最终形成的模型能够自行发展推理和思路链,其中包括 DeepSeek 所称的“顿悟时刻”:

在 DeepSeek- -Zero 训练过程中观察到的一个特别有趣的现象R1是“顿悟时刻”的出现。如表 3 所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek- R1-Zero 通过重新评估其初始方法学会为问题分配更多思考时间。这种行为不仅证明了模型不断增强的推理能力,而且是一个引人入胜的例子,展示了强化学习如何产生意想不到的复杂结果。

这一刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和魅力:我们无需明确地教模型如何解决问题,只需为其提供适当的激励,它就会自主地开发高级的解决问题策略。这一“顿悟时刻”有力地提醒了我们,强化学习有潜力在人工智能系统中开启新的智能水平,为未来更自主、更具适应性的模型铺平道路。

这是迄今为止《惨痛教训》中最有力的肯定之一:你不需要教人工智能如何推理,你只需给它足够的计算和数据,它就会自学!

好吧,几乎是:R1- 零理由,但人类很难理解。回到介绍:

然而,DeepSeek- R1-Zero 面临着可读性差、语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek- R1,它结合了少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据来微调 DeepSeek- V3-Base 模型。接下来,我们执行类似 DeepSeek- -Zero 的面向推理的 RL R1。在 RL 过程接近收敛后,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,结合来自 DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek- V3-Base 模型。在使用新数据进行微调后,检查点会经历额外的 RL 过程,考虑来自所有场景的提示。经过这些步骤,我们得到了一个称为 DeepSeek- 的检查点R1,其性能与 OpenAI- -1217 相当o1。

这听起来很像OpenAI 为 所做的o1事情:DeepSeek 通过一系列思路链思维的例子启动模型,以便它可以学习适合人类消费的正确格式,然后进行强化学习以增强其推理能力,同时进行一些编辑和细化步骤;输出是一个看起来非常有竞争力的模型o1。

再次,DeepSeek 受益于提炼,尤其是在训练方面,这似乎是合理的R1。然而,这本身就是一个重要的结论:我们处于这样一种情况:AI 模型正在教 AI 模型,而 AI 模型也在教自己。我们正在实时观察 AI 起飞场景的组装。

那么我们接近通用人工智能了吗?

看起来确实如此。这也解释了为什么软银(以及孙正义召集的任何投资者)会为 OpenAI 提供资金,而微软不会:我们相信我们正达到一个起飞点,事实上,成为第一将带来真正的回报。

但现在不是R1处于领先吗?

我不这么认为;这种说法有些言过其实。R1与 相比, 具有竞争力o1,尽管其能力似乎确实存在一些漏洞,表明其在一定程度上比o1-Pro 有所提升。与此同时,OpenAI 已经展示了o3,这是一种功能更强大的推理模型。DeepSeek 绝对是效率方面的领先者,但这与成为整体的领先者不同。

那么为什么每个人都如此恐慌呢?

我认为有多种因素。首先,尽管人们普遍认为中国在软件方面不如美国,但中国已经赶上了美国领先的实验室,这令人震惊。这可能是我对这一反应感到惊讶的最大原因。事实上,中国总体上拥有极其精通的软件行业,尤其是在人工智能模型构建方面有着非常好的记录。

其次是 的训练成本低V3,DeepSeek 的推理成本也低。这部分对我来说也是一个很大的惊喜,当然,但这些数字是合理的。这很可能让每个人都对 Nvidia 感到紧张,这显然会对市场产生重大影响。

第三,尽管芯片禁令,DeepSeek 还是成功了。尽管芯片禁令存在很大漏洞,但我认为 DeepSeek 很有可能使用合法芯片实现这一目标。

我拥有 Nvidia!我完蛋了吗?

这则消息给 Nvidia 带来了真正的挑战。Nvidia 有两大护城河:

CUDA 是任何编程这些模型的人的首选语言,并且 CUDA 仅适用于 Nvidia 芯片。Nvidia 在将多个芯片组合成一个大型虚拟 GPU 的能力方面具有巨大的领先优势。

这两个护城河共同发挥作用。我上面提到,如果 DeepSeek 可以使用 H100,他们可能会使用更大的集群来训练他们的模型,因为这将是更简单的选择;事实上,他们没有,而且带宽受限,这推动了他们在模型架构和训练基础设施方面的许多决策。看看美国实验室:他们没有花太多时间进行优化,因为 Nvidia 一直在积极推出更强大的系统来满足他们的需求。阻力最小的路线就是向 Nvidia 付费。然而,DeepSeek 只是证明了另一条路线是可行的:在较弱的硬件和较低的内存带宽上,大量优化可以产生显着的效果;仅仅向 Nvidia 支付更多费用并不是制作更好模型的唯一方法。

尽管如此,Nvidia 仍然有三个优势。首先,如果将 DeepSeek 的方法应用于 H100 或即将推出的 GB100,其性能会有多好?仅仅因为他们找到了一种更高效的计算方式,并不意味着更多的计算是无用的。其次,从长远来看,较低的推理成本应该会推动更多的使用。微软首席执行官 Satya Nadella 在深夜发布的一条几乎肯定是针对市场的推文中正是这么说的:

第三,推理模型喜欢R1并o1使用更多计算来获得更出色的性能。如果人工智能的能力和能力的提高依赖于更多计算,那么 Nvidia 将从中受益!

不过,事情并非全都是乐观的。至少在短期内,DeepSeek 的效率和广泛可用性使最乐观的 Nvidia 增长故事受到严重质疑。模型和基础设施优化带来的回报也表明,探索推理的替代方法可以获得显著的收益。例如,在独立的 AMD GPU 上运行推理可能更为合理,完全避开 AMD 较差的芯片间通信能力。推理模型还增加了比 Nvidia GPU 更专业的推理专用芯片的回报。

简而言之,Nvidia 不会消失;然而,Nvidia 的股价却突然面临着更多尚未反映在价格中的不确定性。而这将拖累所有人。

那么芯片禁令又如何呢?

最容易提出的论点是,鉴于美国在软件领域的领先地位迅速消失,芯片禁令的重要性才更加凸显。软件和专有技术不能被禁运——我们之前有过这样的争论和认识——但芯片是实物,美国有理由禁止它们进入中国。

与此同时,我们应该谦虚地承认,早期的芯片禁令似乎直接导致了 DeepSeek 的创新。此外,这些创新不仅会延伸到走私的 Nvidia 芯片或像 H800 这样的削弱版芯片,还会延伸到华为的 Ascend 芯片。事实上,你可以完全有理由认为,芯片禁令的主要结果是今天 Nvidia 股价的暴跌。

让我担心的是芯片禁令背后的心态:美国不是通过未来的创新来竞争,而是通过过去对创新的否定来竞争。是的,这可能在短期内有所帮助——再次强调,如果 DeepSeek 拥有更多的计算能力,它会更加有效——但从长远来看,它只是为美国占据主导地位的芯片和半导体设备行业的竞争埋下了种子。

像人工智能模型吗?

AI 模型就是一个很好的例子。我上面提到过,我会谈到 OpenAI 最大的罪行,我认为这是2023 年拜登关于人工智能的行政命令。我在《减弱创新》中写道:

重点是:如果你接受监管束缚在位者的前提,那么很明显,早期的人工智能赢家似乎最热衷于在华盛顿特区引起对人工智能的警惕。尽管他们的担忧显然还不足以停止他们的工作。不,他们是负责任的人,是关心到呼吁监管的人;如果对想象中的危害的担忧会压倒不可避免的竞争对手,那就更好了。

那段话专门谈的是 OpenAI,以及旧金山更广泛的 AI 社区。多年来,我们一直受到那些致力于构建和控制 AI 的人对 AI 危险的担忧。这些所谓的危险是 OpenAI在 2019 年发布 GPT-2 时关闭的动力:

由于担心大型语言模型会被用来大规模生成欺骗性、偏见性或辱骂性语言,我们只发布了一个更小版本的 GPT-2 以及采样代码⁠(在新窗口中打开)。我们不会发布数据集、训练代码或 GPT-2 模型权重……我们知道一些研究人员有技术能力来重现和开源我们的结果。我们相信我们的发布策略限制了可能选择这样做的初始组织,并让人工智能社区有更多时间讨论此类系统的影响。

我们还认为,政府应该考虑扩大或启动一些计划,以更系统地监测人工智能技术的社会影响和传播,并衡量此类系统能力的进步。如果这些努力得以实施,可以为人工智能实验室和政府在出版决策和更广泛的人工智能政策方面提供更好的证据基础。

这句话的傲慢与无用相比无比明显:六年后,全世界都可以使用一个非常优秀的模型的权重。OpenAI 的控制策略——由美国政府强制执行——完全失败了。与此同时,由于前沿模型没有开放权重,有多少创新被放弃?更普遍地说,有多少时间和精力被花在游说政府强制执行的护城河上,而 DeepSeek 刚刚摧毁了这些护城河,这些时间和精力本可以更好地用于实际创新?

所以你并不担心人工智能的末日场景?

我完全理解这种担忧,我刚刚提到,我们正进入人工智能训练人工智能并自行学习推理的阶段。但我认识到,这趟列车是无法停止的。更重要的是,这正是开放如此重要的原因:我们需要世界上更多的人工智能,而不是一个不负责任的董事会统治我们所有人。

等等,中国为什么要开源他们的模型?

好吧,DeepSeek 确实如此,首席执行官梁文峰在一次必读的采访中表示,开源是吸引人才的关键:

面对颠覆性技术,闭源所创造的护城河是暂时的。即使是 OpenAI 的闭源方法也无法阻止其他人迎头赶上。因此,我们将价值锚定在团队中——我们的同事通过这个过程成长,积累专业知识,并形成一个能够创新的组织和文化。这就是我们的护城河。

开源、发表论文其实不需要我们付出任何成本,对于技术人才来说,让别人跟随你的创新是一种很大的成就感。其实开源更多的是一种文化行为,而不是商业行为,为开源做贡献会让我们赢得尊重。对一家公司来说,这样做也有文化吸引力。

采访者询问这种情况是否会改变:

现在,DeepSeek 有一种理想主义的气氛,让人想起 OpenAI 的早期,而且它是开源的。你们以后会改成闭源吗?OpenAI 和 Mistral 都从开源转为闭源了。

我们不会改闭源,我们认为先有强大的技术生态更重要。

这其实超越了理想主义。如果模型是商品——他们确实是这样看的——那么长期的差异化来自于拥有优越的成本结构;这正是 DeepSeek 所实现的,这本身就反映了中国如何主宰其他行业。这也与大多数美国公司对差异化的看法相反,美国公司认为差异化是通过拥有能够维持更大利润的差异化产品来实现的。

那么 OpenAI 完蛋了吗?

不一定。ChatGPT让 OpenAI 成为了一家偶然的消费科技公司,也就是说一家产品公司;通过订阅和广告的某种组合,可以建立可持续的消费业务,实现商品化。当然,还有赢得人工智能腾飞竞赛的赌注。

另一方面,Anthropic 可能是本周末最大的输家。DeepSeek 在 App Store 中排名第一,这恰恰凸显了 Claude 在旧金山以外地区没有获得任何关注。API 业务表现更好,但总体而言,API 业务最容易受到似乎不可避免的商品化趋势的影响(请注意,OpenAI 和 Anthropic 的推理成本看起来比 DeepSeek 高得多,因为他们获得了大量利润;这种情况正在消失)。

那么这一切都很令人沮丧,不是吗?

事实上,不是。我认为 DeepSeek 为几乎所有人提供了巨大的礼物。最大的赢家是能够预见到未来真正免费的人工智能产品和服务的消费者和企业。从长远来看,杰文斯悖论将占据主导地位,每个使用人工智能的人都将是最大的赢家。

另一组赢家是大型消费科技公司。免费人工智能的世界是产品和分销最重要的世界,这些公司已经赢得了这场游戏;《开端的终结》是对的。

中国也是大赢家,我猜这种赢家只会随着时间的推移而显现出来。中国不仅可以使用 DeepSeek,而且我猜 DeepSeek 与美国领先的人工智能实验室相比取得的相对成功将进一步激发中国的创新能力,因为他们意识到自己可以参与竞争。

剩下的就只剩下美国了,我们必须做出选择。出于非常合乎逻辑的原因,我们可以加倍采取防御措施,比如大规模扩大芯片禁令,对芯片和半导体设备实施基于许可的监管制度,效仿欧盟对技术的态度;或者,我们可以意识到我们确实有竞争对手,并真正允许自己参与竞争。不要再焦虑不安,不要再为监管而奔走呼号——事实上,我们应该反其道而行之,消除我们公司中与胜利无关的所有垃圾。如果我们选择竞争,我们仍然可以获胜,如果我们真的赢了,我们将感谢一家中国公司。

来源:人工智能学家

相关推荐