摘要:9月17日,以梁文锋为通讯作者、DeepSeek团队共同发布,DeepSeek-R1推理模型研究论文——《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。
9月17日,以梁文锋为通讯作者、DeepSeek团队共同发布,DeepSeek-R1推理模型研究论文——《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。
该论文发布后,再次引发全球关注,并成功登上了国际权威期刊《Nature》的封面。这是中国大模型研究首次登上Nature封面,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。
据悉,DeepSeek自今年2月14日就已将DeepSeek-R1论文提交至《自然》,而直到7月17日才被接收,9月17日正式发布。在这一过程中,有8位外部专家参与了同行评审。
Nature评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。”
今年1月份,DeepSeek曾在arxiv发布初版预印本论文。与今年1月发布的初版论文相比,本次论文还披露了更多模型训练的细节。包括,DeepSeek 团队减少了描述中的拟人化,并增加了对技术细节的说明,包括模型训练的数据类型及其安全性。
在补充材料中DeepSeek还首次披露了R1 的训练成本,仅相当于29.4万美元(当前约合208.90万人民币)。
Nature的一份报道中称,虽然这不包括为打造R1基础 LLM 所花费的约600万美元(当前约4263.36万元人民币),但总金额仍远低于竞争对手模型所花费的数千万美元。
与此同时,在补充材料中,DeepSeek还正面回应了模型发布之初的蒸馏质疑。据悉,在今年1月,DeepSeek-R1发布后,曾有OpenAI研究人员质疑,认为DeepSeek可能使用了OpenAI模型的输出来训练R1。
在论文的补充资料部分,DeepSeek回应称:
对于DeepSeek-V3-Base 的训练数据,我们仅使用普通网页和电子书,未加入任何合成数据。然而,我们观察到一些网页包含大量OpenAI 模型生成的答案,这可能导致基础模型间接地从其他强大的模型中获取知识。然而,我们并没有刻意在训练前的冷却阶段添加 OpenAI生成的合成数据;此阶段使用的所有数据均为自然产生并通过网络爬虫收集。训练前的数据集包含大量的数学和代码相关内容,这表明 DeepSeek-V3-Base 已接触了大量的推理轨迹数据。这种广泛的接触使模型能够生成合理的候选解决方案,强化学习可以从中有效地识别和优化高质量的输出。DeepSeek表示,已在预训练中针对数据污染进行了处理。
此外,DeepSeek也明确警示,随着-R1 推理能力的提升,其可能存在潜在的伦理风险。因此,在安全方面,DeepSeek也对其进行了补充,包括在开源和内部安全评估基准上的性能表现,以及跨多种语言和抵御越狱攻击的安全水平。
DeepSeek称,与其他最先进的模型相比,DeepSeek-R1 模型的固有安全水平总体处于中等水平(与 GPT-4o (2024-05-13) 30相当)。此外,结合风险控制系统,模型的安全水平可提升至更优水平。
另据Nature的一份报道称,DeepSeek 的主要创新在于使用一种自动化的试错方法(即纯强化学习)来创建 R1。该过程会奖励模型得出正确答案,而不是教它遵循人类选择的推理示例。这就是其模型学习自身类似推理策略的方式,例如如何在不遵循人类规定的策略的情况下验证其工作原理。为了提高效率,该模型还使用估算值来对自己的尝试进行评分,而不是使用单独的算法,这种技术被称为组相对策略优化。
哥伦布俄亥俄州立大学的人工智能研究员Huan Sun评论表示,“该模型在人工智能研究人员中颇具影响力。到目前为止,2025年几乎所有在法学硕士(LLM)中进行强化学习的研究都可能以某种方式受到了R1的启发。”
另外 Huan Sun还呼吁:“经过严格的同行评审流程无疑有助于验证模型的有效性和实用性,其他公司也应该这样做。”
据悉,自大模型浪潮席卷全球以来,技术发布、性能榜单层出不穷,但始终缺乏一个权威的“科学认证”机制。OpenAI、谷歌等巨头虽屡有突破,但其核心技术多以技术报告形式发布,未经独立同行评审。
全球知名开源社区Hugging Face机器学习工程师Lewis Tunstall也是DeepSeek论文的审稿人之一,他也强调:“这是一个备受欢迎的先例。如果缺乏这种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的潜在风险。”
同时,《Nature》方面也呼吁更多的AI 公司将其模型提交给同行进行评审,DeepSeek的做法也成为了全球AI 产业在科学研究透明度方面的参考典范。
来源:卓乎科技一点号