摘要:自2023 年 12 月 4 日以来,我已经在这份时事通讯中报道了十次有关 DeepSeek 的新闻。但我敢打赌,如果你每年免费订阅,你肯定不会注意到这个名字值得关注。这只是另一家不知名的人工智能初创公司。制作更多平庸的模型。肯定不会像我一个月前写的那样“达到
自2023 年 12 月 4 日以来,我已经在这份时事通讯中报道了十次有关 DeepSeek 的新闻。但我敢打赌,如果你每年免费订阅,你肯定不会注意到这个名字值得关注。这只是另一家不知名的人工智能初创公司。制作更多平庸的模型。肯定不会像我一个月前写的那样“达到 OpenAI 或谷歌的水平”。“至少现在还没有,”我自信地补充道。事实证明我是妄想。或者不善于评估这些人的决心。或者也许我当时是对的,他们反应真快。
无论如何,DeepSeek 这家默默无闻的初创公司现在将为人所知。不仅因为它是中国公司——而且是因为他们构建的模型非常出色。而且因为它们是开源的。而且因为它们很便宜。真是便宜。
昨天,即 2025 年 1 月 20 日,他们宣布并发布了DeepSeek-R1 ,这是他们的第一个推理模型(从现在起为 R1;在此处试用,使用“deepthink”选项)。R1 类似于2024 年 12 月 5 日发布的OpenAI o1。我们谈论的是一个月的延迟——有趣的是,领先的封闭实验室和开源社区之间的一个短暂的窗口。至关重要的是,美国和中国之间的一个短暂的窗口。
从我的预测来看,你可能认为我预见到了这一点。好吧,我没想到会这么快。OpenAI 不是比美国其他 AI 实验室领先半年吗?比阿里巴巴或腾讯等中国公司领先一年多吗?
其他人则看到了更好的结果。OpenAI 首席执行官 Sam Altman 在2024 年 7 月发表的《华盛顿邮报》评论文章中指出,“人工智能的民主愿景必须胜过独裁愿景”。并警告说:“美国目前在人工智能发展方面处于领先地位,但继续保持领先地位还远未得到保证。”并提醒我们,“中华人民共和国表示,它的目标是到 2030 年成为人工智能领域的全球领导者。”但我敢打赌,即使是他也对 DeepSeek 感到惊讶。
颇具讽刺意味的是,OpenAI 仍将其前沿研究闭门进行——甚至对美国同行也不开放,因此权威借口不再有效——而 DeepSeek 却让全世界都能访问 R1。这里有太多的阅读材料,无法解开这个明显的矛盾,而我对中国外交政策知之甚少,无法发表评论。因此,在讨论 R1(人工智能模型)之前,我只想强调我认为相关的三个问题,这是我可以放心撰写的部分:
现在我们已经解决了整个事件的地缘政治方面的问题,我们可以集中精力于真正重要的事情:条形图。
DeepSeek 分享了R1 和 o1 在六个相关基准测试(例如 GPQA Diamond 和 SWE-bench Verified)和其他替代测试(例如 Codeforces 和 AIME)上的一对一比较。(该列表缺少 ARC-AGI 和 FrontierMath,但OpenAI 具有“不公平”的优势,因此我理解其他实验室选择忽略这些。):
来源根据这些评估的衡量,R1 和 o1 基本上是同一个模型,最大的差异是 GPQA Diamond 上的 4 个百分点的差距(71.5% vs 75.7%)。为了进行比较,以下是 o1 与 GPT-4o(OpenAI 最好的非推理模型)在三个基准测试中的对比(Anthropic 的 Claude 3.5 和 Google DeepMind 的 Gemini 2.0 与 GPT-4o 大致相同):
来源在 Codeforces(编码)上,R1 和 GPT-4o 之间的差距为 85%。在 AIME(数学)上,差距为 75%。在 GPQA Diamond(科学)上,差距为 15%。简而言之:DeepSeek 创建的模型可与 OpenAI 的最佳模型相媲美,该模型也是美国实验室中最好的模型(值得注意的是,OpenAI 已经宣布了o3,比 o1 好得多,但它尚未在未来几个月开始推出)。DeepSeek 登上了领奖台,通过开源 R1,它正在分发奖金。
那么让我们来谈谈他们还为我们提供了什么,因为 R1 只是DeepSeek 发布并开源的八种不同模型之一。还有 R1-Zero,它将给我们很多值得讨论的内容。R1 和 R1-Zero 的不同之处在于,后者在训练后阶段没有受到人工标记数据的指导。换句话说,DeepSeek 让它自己弄清楚如何进行推理。稍后将对此进行详细介绍。
然后,还有另外六个模型,它们是通过在 R1 提炼数据上训练较弱的基础模型(Qwen 和 Llama)创建的。对于那些不知道的人来说,提炼是一个大型强大模型使用合成数据“教导”较小、功能较弱的模型的过程。提炼是我关于 GPT-5 的推测文章的核心。R1 提炼模型比原始模型好得多,这一事实进一步证明了我的假设:GPT-5 是存在的,并且正在内部用于提炼。下面是六个提炼模型的结果表:
来源当一家 AI 公司发布多个模型时,最强大的模型往往会抢走风头,所以让我告诉你这意味着什么:R1 蒸馏的 Qwen-14B(一个 140 亿参数的模型,比 2020 年的 GPT-3小 12 倍)与 OpenAI o1-mini 一样好,而且比最好的非推理模型 GPT-4o 或 Claude Sonnet 3.5 好得多。这太不可思议了。蒸馏极大地改善了弱模型,以至于再对它们进行后训练是没有意义的。只需挖掘你的大模型。而且不会增加推理成本。
说到成本,DeepSeek 不知怎么地成功以 o1 成本的 5-10%构建了 R1 (而且这已经是 OpenAI 投入产出定价的宽容度了)。这就像从小米或华为以 50 美元的价格购买了一款类似于 Google Pixel 或 Apple iPhone 的智能手机,而后者的售价为 1000 美元以上。具有相同的功能和质量。他们怎么做到的?他们是在亏本经营吗?他们是否找到了一种让这些模型变得非常便宜的方法,而 OpenAI 和 Google 却忽略了这一点?他们是否在复制 Meta 的方法,使这些模型成为商品?太多未解决的问题了。我猜 OpenAI 更喜欢封闭式的问题。
总结一下:R1 是一个顶级推理模型,开源,可以将弱模型提炼为强大模型。所有这些只需同类模型的一小部分成本。而且它起源于中国。想想看。
如果我要写一篇关于 OpenAI 模型的文章,那么我就不得不在这里结束这篇文章了,因为他们只给了我们演示和基准。然而,DeepSeek 也发布了一份详细的技术报告。OpenAI、谷歌和 Anthropic 都没有给我们提供类似的东西。那么我们的朋友又是谁呢?一家中国公司在做 OpenAI 被指定要做的工作,这毫无疑问是搞笑的。不过玩笑到此为止。是时候打开这篇论文了。这是一份珍贵的文件。让我们回顾一下我觉得更有趣的部分。
我们已经看到了 R1 有多好。R1-Zero 又如何呢?DeepSeek 对 R1 和 R1-Zero 的处理方式让人想起了 DeepMind 对AlphaGo和AlphaGo Zero 的处理方式(两者之间有不少相似之处,也许 OpenAI 根本不是 DeepSeek 的灵感来源)。
让我在这里稍微讲点技术方面的知识(不多)来解释一下 R1 和 R1-Zero 之间的区别。两者都由预训练阶段(来自网络的大量数据)和后训练阶段组成。前者是共享的(R1 和 R1-Zero 都基于DeepSeek-V3)。后者才是变化之处。
经过预训练后,R1 获得了少量高质量人类样本(监督微调,SFT)。这就是您通常从基础模型(开箱即用的 GPT-4)获取聊天模型(ChatGPT)所做的事情,但数量要大得多。DeepSeek 希望将 SFT 保持在最低水平。然后,为了让 R1 更好地进行推理,他们添加了一层强化学习 (RL)。简单的 RL,没有像 MCTS 或 PRM 那样花哨的东西(不要查找这些首字母缩略词)。他们还允许它在推理时思考(这就是现在著名的测试时间计算,TTC,OpenAI 使用 o1-preview 开创的缩放定律)。一旦添加了 RL 和 TTC,您就会得到类似于 o1 的东西。这就是 R1。R1-Zero 是同样的东西,但没有 SFT。
现在不用说行话了:R1 不停地浏览网页(预训练),然后阅读人类编写的推理手册(SFT),最后进行一些自我实验(RL + TTC)。相比之下,R1-Zero 没有阅读任何手册。他们使用大量网络数据对 R1-Zero 进行了预训练,然后立即将其发送到 RL 阶段:“现在去弄清楚如何进行自我推理。”就是这样。
2016-2017 年,DeepMind 也做了类似的事情,将 AlphaGo 升级为 AlphaGo Zero。AlphaGo 通过了解规则和从数百万场人类比赛中学习来学习围棋,但一年后,它决定在没有任何人类数据的情况下教 AlphaGo Zero,只教规则。结果它打败了AlphaGo。不幸的是,开放式推理比围棋更难;R1-Zero 比 R1 稍差,存在可读性差等问题(此外,两者的基础模型仍然严重依赖大量人类创建的数据——与仅使用物理定律就能重建人类文明的人工智能相去甚远)。
以下是 R1 与 R1-Zero 的对比:
作者但 R1-Zero 的相对成功仍然令人印象深刻。DeepSeek 对该模型的评价如下:
研究结果表明,强化学习让 DeepSeek-R1-Zero 无需任何监督微调数据就能获得强大的推理能力。这是一项值得注意的成就,因为它凸显了该模型仅通过强化学习就能有效学习和泛化的能力。
据我们所知,OpenAI 尚未尝试这种方法(他们使用更复杂的 RL 算法)。以下是与 o1-preview 相比的基准测试结果:
来源但是,如果效果更好呢?如果你向推理模型展示整个互联网,然后告诉它们如何用简单的强化学习思考,而不使用 SFT 人类数据,那么你能在推理模型上获得更好的结果吗?如果 — — 请耐心听我说 — — 你甚至根本不需要预训练阶段呢?我想这在原则上是可能的(原则上可以根据物理定律重建整个人类文明,但我们不是来写阿西莫夫小说的)。
为什么不向零型模型展示数百万个人类语言和人类推理的例子,而是教他们逻辑、演绎、归纳、谬误、认知偏见、科学方法和一般哲学探究的基本规则,让他们发现比人类永远无法想到的更好的思维方式呢?
没有人类能像 AlphaZero 那样下棋。当 DeepMind 展示它时,人类国际象棋大师的第一个反应是将它与 Stockfish 等其他人工智能引擎进行比较。很快,他们就承认它下棋更像人类;下得很漂亮,风格独特。我听到有人说 AlphaZero 就像前世界国际象棋冠军米哈伊尔·塔尔的硅转世:大胆、富有想象力,而且总是做出令人惊讶的牺牲,不知何故赢得了这么多比赛。
我认为,构建这样一个用于数学、科学和推理的人工智能程序比国际象棋或围棋更难,但并非不可能:一个超人般聪明却又异常人性化的推理机器。这就是 DeepSeek 用 R1-Zero 尝试并几乎实现的。我已经准备好迎接故事的下一章了。
但是让我们在这里再多推测一下,你知道我喜欢这样做。如果零型模型不是变得更人性化,而是在变得更好时变得更奇怪,会怎么样?
DeepSeek 在训练 R1-Zero 时发现很难读懂模型的响应。它开始混合语言。这又让我想起了 DeepMind。AlphaGo Zero 学会了比 AlphaGo 更好的下围棋,但在人眼中也更奇怪。最终,AlphaGo向我们学习,但 AlphaGo Zero 必须通过自我对弈找到自己的方法。它没有我们的数据,所以它没有我们的缺点。更重要的是,它也没有我们的礼貌。
由此引发的问题是:是否存在比人类更有效率的非人类推理世界的方法?更智能的人工智能是否不仅会变得更加智能,而且会变得越来越难以捉摸?
我认为答案是肯定的:随着人工智能变得越来越聪明,它会经历两个不同的阶段。首先,它会变得非常接近人类的特质,并表现出类似于人类“反思”和“探索解决问题的替代方法”的突发行为,正如 DeepSeek 研究人员对 R1-Zero 所说的那样。以下是论文中“顿悟时刻”的一个例子:
来源但最终,随着人工智能的智能超出了我们所能理解的范围,它变得很奇怪;离我们能理解的范围越来越远,就像 AlphaGo Zero 一样。它就像一颗在长椭圆轨道上运行的彗星,在太阳系与我们短暂相遇,然后永远消失在宇宙的无限深处。
我觉得很难为“人类思维方式是最好的思维方式”这一观点辩护。我们只是在探索自己的缺点(生存的需要)、局限性(语言的连续性)和认知盲点(我真的比其他人都聪明,还是只是在自欺欺人?)也许有更好的方法。难以理解的外星方式。
OpenAI隐藏 o1 的思路可能不仅仅是出于竞争的原因,而是因为他们意识到了一个可怕的事实:如果看到 AI 在句子中间从英语跳转到其他语言,再跳转到符号,最后跳转到看似胡言乱语的东西,最后才得出正确答案,我们会感到不安;“到底发生了什么?你是怎么找到这个答案的?我什么都不明白!!”
相信我,你不会想直接观察自己之外的实体的思想。你不会想让自己被电死。我感觉脊背发凉。
不管怎样,抛开科幻小说不谈,还有其他东西引起了我的注意。DeepSeek 直截了当地解释了在创建 R1、R1-Zero 和提炼模型时什么方法有效、什么方法无效。里面有所有内容。所有的秘密。除了我已经解释的内容之外,还有三个结论引人注目。
首先,从强模型中提取 SFT 来改进弱模型比在弱模型上只进行强化学习更有成效。换句话说,为了改进较小、较弱的模型,你不应该采用与构建较大模型相同的方法,而应该使用较大的模型作为老师:
使用 Qwen2.5–32B(Qwen, 2024b)作为基础模型,从 DeepSeek-R1 直接蒸馏的效果优于在其上应用 RL。这表明,通过更大的基础模型发现的推理模式对于提高推理能力至关重要。……将更强大的模型蒸馏成更小的模型会产生很好的结果,而依赖于本文提到的大规模 RL 的小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。
作者第二个结论是自然的延续:在较小的模型上进行 RL 仍然有用。
……我们发现将 RL 应用于这些提炼模型可获得显著的进一步收益。我们认为这值得进一步探索,因此这里仅展示简单的 SFT 提炼模型的结果。
作者他们最终得出结论,要提高能力的底线,你仍然需要不断改进基础模型。R1 和 R1-Zero 都基于 DeepSeek-V3,但最终,DeepSeek 将不得不训练 V4、V5 等等(这需要花费大量资金)。同样,OpenAI 使用 GPT-5 来继续改进 o 系列也是不够的。在某个时候,他们将不得不训练 GPT-6:
...虽然提炼策略既经济又有效,但超越智能的界限可能仍然需要更强大的基础模型和更大规模的强化学习。
作者整个故事以图表形式可以概括如下:
作者对于 DeepSeek,我只能说:恭喜。
对于OpenAI和美国,我不得不说:醒醒吧。
来源:走进科技生活