DeepSeek 启示:R1-Zero 消除人类瓶颈、推理即训练

360影视 2025-02-02 11:41 2

摘要:作者:Mike Knoop,智能科学实验室 Ndea 的联合创始人兼 CEO,是素有 AGI 北极星之称的 ARC Prize 基金会的联合创始人兼董事会成员。Zapier 的联合创始人兼董事会成员。

作者:Mike Knoop,智能科学实验室 Ndea 的联合创始人兼 CEO,是素有 AGI 北极星之称的 ARC Prize 基金会的联合创始人兼董事会成员。Zapier 的联合创始人兼董事会成员。

一言蔽之,R1-Zero 比 R1 更重要。

特别感谢来自 Baseten 的 Tuhin 和 Abu 以及来自 Hyperbolic Labs 的Yuchen 为我们托管 r1-zero。目前几乎没有其他服务商托管这个模型变体,其可用性对研究至关重要。

ARC Prize 基金会的目的是定义、评估和激发实现 AGI(通用人工智能)的新思路。为此,我们致力于打造最高效的全球创新环境。

我们还没有实现 AGI,仍在创新方面受到制约——一味向上扩展纯 LLM 预训练并非出路,尽管这是自去年夏季以来 AI 行业和公众的主流观点。

主流派很重要的原因于它们最终驱动经济活动,比如投资、研究重点、融资、地缘政治和贸易等。比如在 2023 年至 2024 年,约 200 亿美元投入到了新的 LLM 初创公司,而投入到新的 AGI 初创公司的资金却只有约 2 亿美元。

我们在去年 6 月开设了 ARC Prize 2024 大奖赛,旨在公众更深入地认识到扩展 LLM 规模存在的局限性,并倡导一个实用的基准测试:ARC-AGI-1,引导业界迈向新方向:需要AI系统适应从未见过的新问题,而不是完全依赖记忆。

DeepSeek 的 R1 架构:

图片来源:@SirrahChan

上周,DeepSeek 发布了新的 R1-Zero 和 R1 “推理”系统,从 ARC-AGI-1 的测试结果来看,可比肩 OpenAI 的 o1系统。R1-Zero、R1 和 o1(低算力版本)的得分均在 15% 至 20% 之间,而堪称纯 LLM 扩展方法数年来巅峰之作的 GPT-4o 仅得分 5%。

从本周的美国市场反响来看,公众开始意识到扩展纯 LLM 规模的局限性,但是公众仍然普遍无视即将到来的推理需求。

2024 年 12 月,OpenAI 宣布新的 o3 系统迎来突破,为此我们进行了验证。其在低算力模式下得分 76%,高算力模式下得分 88%。o3 系统演示了可以首次实现适应从未见过的全新问题的实用计算机。

尽管 o3 在 ARC-AGI-1 基准测试中碾压对手是重大科技新闻,但几乎未被主流媒体注意和报道。

这是 AI 领域和计算机科学界一个异常重要的时刻,这些系统需要深入研究。

但由于 o1/o3 的闭源性,我们只好凭借推测。多亏 ARC-AGI-1 以及现在(近乎)开源的 R1-Zero 和 R1,我们才能加深了解。

尤其是,R1-Zero 比 R1 重要得多。

之所以说“近乎”开源,是由于 DeepSeek 未公布从头开始生成模型权重的可复现方法。

R1-Zero 消除人类瓶颈

我们在分析 o1 和 o3 时推测了这些推理系统的工作原理。主要思路如下:

1. 为问题领域生成思维链(CoT)。

2. 结合使用人类专家(“监督式微调”,即SFT)和自动化机器(“强化学习”,即RL),标注中间的CoT步骤。

3. 使用(2)训练基础模型。

4. 测试时,从过程模型迭代推理。

以下总结了迭代样本所用的技术以及ARC-AGI-1得分:

借助 DeepSeek 的新研究,我们可以得出更合理的推测。

关键结论是,LLM 推理系统在以下三个维度提升了新问题适应能力(及可靠性):

1、为 CoT 过程模型训练添加人类标签即 SFT。

2、CoT 搜索,而非线性推理(并行逐步CoT推理)

3、完整 CoT 采样(并行轨迹推理)

第 1 个维度受制于人类数据生成,限制了这些推理系统最适用哪些领域。比如说,o1 在 MMLU 法律专业类别的得分远低于数学和逻辑类别的得分。

第 2 个维度和第 3 个维度受制于效率。o1 和 o3 在测试时增加推理算力后,两者在 ARC-AGI-1 基准测试时测试准确率均呈对数级提升,而分配推理算力的不同方式调整了曲线的 x 轴。

在我看来,DeepSeek 最引人注目的做法是单独发布了 R1-Zero。该模型并不使用 SFT(第 1 个维度),而是纯粹依赖强化学习。

R1-Zero 和 R1 在 ARC-AGI-1 上得分相近,分别为 14% 和 15.8%。DeepSeek 自己报告的基准测试得分也表明两者非常相近,比如 MATH AIME 2024 得分分别为 71% 和 76%(基础模型 DeepSeek V3得分为40%)。

R1-Zero 的论文作者表示,“DeepSeek-R1-Zero 遇到了可读性差和语言混杂等问题”,这在网上已得到了佐证。

然而我们在测试中发现,按照 ARC-AGI-1 测试 R1-Zero 未表现出明显的不连贯性,数学和编程等领域存在相似的情况。

综上所述,这些发现结果表明:

1、在可验证性强的领域,SFT(比如人类专家标注)对准确、清晰的 CoT 推理并非必不可少。

2、R1-Zero 训练过程能够通过强化学习优化,在 token 空间中创建自己的内部领域特定语言(DSL)。

3、SFT 对提升 CoT 推理领域的通用性必不可少。

这符合直觉,因为语言本身即是一种推理 DSL。从一个领域学到同一“词汇”后可以运用到另一个领域。纯强化学习方法尚未发现广泛的共享词汇表,我预计这将是未来研究的一个重中之重。

最终,R1-Zero 展示了没有人类瓶颈的潜在扩展方法的原型,甚至在训练数据获取方面。

几乎可以肯定的是,DeepSeek 着眼于 OpenAI 的 o3系统。关键问题是:是否需要 SFT才能添加CoT搜索和采样?是否存在一种假设的“R2-Zero”,它遵循同样的对数准确率vs推理扩展曲线?从 R1-Zero 的结果来看,我认为这个假设的向上扩展版本无需 SFT,就能在 ARC-AGI-1 基准测试中碾压对手。

投入资金以换取可靠性

AI 领域出现了经济层面的两大转变:

1、通过投入更多资金可获得更高准确率和可靠性。

2、资金流向训练转为流向推理。

这两大转变都会推动推理需求激增,不会减少对算力的需求,实际上反而会加大对算力的需求。

AI 推理系统有望带来更大的回报,并不仅限于基准测试方面更高的准确率。阻碍 AI 自动化应用(如推理需求)的首要问题是可靠性。

我访谈了数百个试图在本企业部署 AI Agent 的 Zapier 客户,反馈高度一致:“由于不可靠,我还没法信任它们。”

此前,我认为 ARC-AGI 方面的进展会带来更高的可靠性。

LLM Agent 存在的挑战在于,需要强有力的本地领域引导才能可靠运行。

更强的泛化能力需要能够适应从未见过的情景。我们现在开始看到有证据表明这种观点是正确的,因此难怪 Anthropic、OpenAI 和苹果等几家公司如今纷纷推出 Agent。

Agent 将因可靠性要求大大推动短期对推理的需求。更笼统地说,开发人员可能决定增加算力以提升用户对系统的信任。不过高可靠性并不意味着百分之百准确,你会遇到老是不一致的情形。这没什么,因为准确率低时,用户和开发人员现在可以通过提示机制更有把握地引导 Agent 的行为。

此前计算机不可能解决的问题如今只需投入相应的资金即可解决。随着效率不断提升,这方面的资金会随之下降。

推理即训练

另一重大转变出现在 LLM 系统预训练数据的来源上。

此前,大部分数据是购买、抓取或从现有的 LLM 合成生成(比如蒸馏或增强)而来的。

这些推理系统提供了一种新的方案,即生成“真实”数据而非“合成”数据。

AI 行业用合成一词指代低质量数据,这类数据通常通过 LLM 回收以增加训练数据总量,收益逐渐递减。

而现在借助推理系统和验证工具,我们可以生成全新的高质量质数据用于训练,这既可以离线进行(开发人员付费),也可以在推理时生成(终端用户付费)。

经济层面的这一转变意味着,拥有最多付费客户的 AI 系统开发人员可能会迎来失控的权力集中时刻。这些客户付费生成新的高质量数据,从而改进模型,模型从而变得更出色、更受用户的青睐,结果可想而知。

如果我们能突破人类专家 CoT 的瓶颈,构建一种极其高效的系统,通过搜索/合成和验证来创建新数据,那么预计大规模的算力会涌入这些推理系统,因为仅需投入资金和输入原始数据即可持续改进。最终,这种类型的 AI 训练将完全压倒基于人类生成的数据的预训练。

结语

鉴于对推理的需求显然会增加,市场将持续调整。

AI 系统获得高效率只会促进更广泛的应用,不仅仅由于杰文斯悖论(Jevons Paradox),还由于效率提升后可以发掘新的训练模式。

在经济学中,当技术进步提高资源使用效率(从而减少任何一种应用所需的资源数量)时,就会出现杰文斯悖论;然而使用资源的成本下降后,总体需求增加导致总的资源消耗量增加。

由于 R1 具有开放、可复现的特性,更多的人和团队会进一步探究 CoT 和搜索,从而更快地揭示技术前沿,并推动创新浪潮,从而提高迅速实现 AGI 的可能性。

已有几人告诉我他们计划将类似 R1 的系统用于 ARC Prize 2025,我期待结果。

R1 开放对全世界是好事。DeepSeek 进一步推动了科学前沿。

英文原文链接:https://arcprize.org/blog/r1-zero-r1-results-analysis

来源:大单网

相关推荐