DeepSeek R1-Zero 内幕大公开：原来“顿悟时刻”早就来了？还有 GRPO 的秘密

摘要：今天给大家带来一篇重磅研究解读，来自新加坡国立大学和SeaAILab团队 Zichen Liu 博士的最新工作，直击 R1-Zero-Like 训练的核心痛点，信息量爆炸！

今天给大家带来一篇重磅研究解读，来自新加坡国立大学和SeaAILab团队 Zichen Liu 博士的最新工作，直击 R1-Zero-Like 训练的核心痛点，信息量爆炸！

这篇论文题目就非常硬核：《Understanding R1-Zero-Like Training: A Critical Perspective》（理解类 R1-Zero 训练：批判性视角）。他们没有盲目跟风，而是选择了 “先理解，再改进” 的硬核路线，深入剖析了 R1-Zero 这类训练方法的两大基石： 基座模型和强化学习 (RL)

文章一上来就抛出震撼弹：DeepSeek-V3-Base 竟然在 RL 微调之前就展现出了 “Aha moment”（顿悟时刻）！这直接颠覆了我们之前的认知，难道 RL 只是锦上添花？

更让人惊讶的是，他们发现Qwen2.5 基座模型，这个 R1-Zero-like 训练的 “网红选手”，即使不用 Prompt 模板，推理能力也强到离谱！平均 benchmark 分数直接飙升 ~60%！这简直不像基座模型，更像是用 QA 数据集 SFT 过的模型！🤔

这些现象都在暗示一个扎心的真相：基座模型的预训练阶段可能已经注入了太多 “偏见”。比如，自我反思能力、数学解题技巧，可能在 RL 奖励信号强化之前就早已埋下种子。

🤔 等等，那模型回复越来越长，真的是 RL 的功劳吗？ 这里面可能另有隐情…

研究团队深入扒了 RL 环节，尤其是 GRPO (Generalized Reward Policy Optimization) 算法，结果发现… GRPO 竟然是有偏见的！

具体来说，GRPO 的长度归一化 (length normalization) 会偏爱短的正确答案，却对长的错误答案更宽容！这就导致了 “长度偏见” (length bias)。

更可怕的是，GRPO 的标准差归一化 (std normalization)还会偏爱太简单或太难的问题，而忽略难度适中的题目！这又带来了“难度偏见”** (difficulty bias)

🤯 PPO 也躺枪？开源实现竟然也引入了 “长度偏见”！

更让人意想不到的是，即使理论上 PPO (Proximal Policy Optimization) 算法是无偏的，但几乎所有开源实现都通过计算 masked_mean 引入了 “长度偏见”！这简直防不胜防！

划重点：“长度偏见” 可能就是模型回复越来越长的幕后黑手之一！

🔥 利器：Dr. GRPO 横空出世！两行代码解决 “偏见” 问题！

为了解决 GRPO 的 “偏见” 问题，研究团队祭出大招 —— Dr. GRPO (Doctor GRPO)！只需 两行代码的魔改：移除长度归一化和标准差归一化 (图中红色部分)！

Dr. GRPO 不仅无偏，还能提升 Token 效率！因为它能有效阻止 GRPO 产生越来越长的错误答案，避免浪费计算资源。

R1-Zero 训练极简配方大公开！7B 模型 AIME 怒刷 SOTA！

基于以上分析，研究团队给出了一个极简的 R1-Zero 训练配方，没有花里胡哨的技巧：

算法: Dr. GRPO (无偏优化器)

数据: MATH level 3-5 难度问题

模板: Qwen-Math

算力: 27 小时 * 8 * A100

结果震撼：7B 模型在 Zero-RL setting 下，AIME 2024 怒刷 43.3 分 SOTA！

这还不是全部！这篇论文和代码库里还有更多有趣发现，例如：

a.基础代数 (+ − × ÷) 问题上的 RL 训练，竟然能提升奥赛级别的推理能力！

b.Llama 模型也能 “顿悟”！

强烈建议大家去围观论文和代码👇

论文地址:

代码地址:

总结一下：这项研究不仅揭示了 R1-Zero-like 训练的深层机制，更指出了现有方法的潜在问题，并提出了有效的改进方案。对于想要深入理解和实践 R1-Zero 训练的朋友们来说，绝对是不可多得的宝藏资料！赶紧学起来吧！

作者信息： Zichen Liu, PhD student, RL believer @SeaAIL @NUSingapore

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

《核聚变，确保 21 世纪美国的主导地位的关键技术》

《世界知识产权组织：2025WIPO 技术趋势报告：交通运输的未来（145 页）》

《世界知识产权组织（WIPO）：2024 年世界知识产权指标报告（194 页）》

《联合国环境规划署：2024 年保护地球报告（81 页）》

《联合国工发组织：2024 清洁技术创新能力建设框架研究报告（51 页）》

《凯捷：Applying TechnoVision 2025：未来科技趋势及应用愿景（17 页）》

《谷歌：2025 年 AI Agent 白皮书：AI 智能体时代来临（42 页）》

《富而德律师事务所：2024 年国际仲裁趋势年度回顾报告（41 页）》

《邓白氏：2024 年全球企业破产报告（27 页）》

《LLM 时代小模型的应用潜力与挑战》（50 页）

《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》（英文版 191 页）

《英伟达：2025NVIDIA 自动驾驶安全报告（26 页）》

《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告（23 页）》

《高德地图：2024 年中国主要城市交通分析报告（29 页）》

《德勤 & CAS：2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势（36 页）》

《ABI Research：2025 生成式人工智能在语义和实时通信中的应用研究报告（20 页）》

《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告（45 页）》

《生成式基础模型的可信度 —— 指南、评估与展望》（231 页）

《量子信息科学与技术对国家安全的影响》（118 页）

《中国科学技术信息研究所：2024 科技期刊世界影响力指数（WJCI）报告（68 页）》

《思略特（Strategy&）：2025 汽车行业的人工智能（AI）机遇研究报告（12 页）》

《赛默飞：2024 年中国生物科技行业调研报告：资本寒冬中生物科技企业的生产之道（18 页）》

《清华大学：2025 年 DeepSeek 与 AI 幻觉报告（38 页）》

《美国企业研究所（AEI）：2025 创新未来电力系统研究报告：从愿景迈向行动（71 页）》

《超材料的智能设计研究进展》

《Ember：2030 年全球可再生能源装机容量目标研究报告（29 页）》

《量子信息科学与技术对国家安全的影响》

《英国人工智能安全研究所：2025 年国际人工智能安全报告 - 执行摘要（22 页）》

《世界海事大学：2024 海事数字化与脱碳研究报告：可持续未来（250 页）》

《艾睿铂（AlixPartners）：2024 回溯过往锚定未来：大型科技公司如何推进人工智能愿景研究报告（18 页）》

《Wavestone ：2025 数据与 AI 雷达：掌握数据与人工智能转型的 10 大挑战研究报告（30 页）》

《CSIS：2024 中美学术的再联结研究报告：在激烈竞争的时代增进相互理解（120 页）》

《MSC：2025 全球国防创新就绪度差距系列报告：突破制约国防创新的六大隐性障碍（第四版）（32 页）》

《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告（22 页）》

《中国核电 - 公司深度报告：世界核电看中国 - 250218（22 页）》

《医药生物行业：医疗器械行业全景图发展趋势及投资机会展望 - 250216（28 页）》

《皮尤研究中心：2024 美国社交媒体使用情况研究报告（英文版）（30 页）》

《科睿唯安：2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者（47 页）》

《经合组织（OECD）：2025 年全球脆弱性报告（218 页）》

《计算机行业年度策略：AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218（38 页）》

《国金证券研究所：从理想走向现实，全球人型机器人研究报告》

《深度解读 DeepSeek 原理与效应（附 PPT 下载）》

《兰德公司（RAND）：2025 借鉴危机经验构建城市水安全韧性研究报告：五城案例分析（62 页）》

《凯捷（Capgemini）：2025 行业创新洞察：电气化飞机推进系统研究报告（27 页）》

《国际能源署（IEA）：2025 全球电力市场报告：至 2027 年的分析与预测（200 页）》

《Zenith：2025 年国际消费电子展（CES）趋势报告：AI 对消费科技、消费行为及传媒营销的变革性影响（17 页）》

《RBC 财富管理：全球透视 2025 年展望报告（33 页）》

《美国国防部和国家安全领域的十大新兴技术》（96 页）

《代理型人工智能全面指南》（45 页 ppt）

《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》（英文版 47 页）

《仲量联行（JLL）：2025 美国制造业的复兴全面分析报告：未来制造业增长及工业需求前瞻（26 页）》

《未来的太空领域：影响美国战略优势的领域》

《Luminate：2024 年年终美国影视行业报告：数据及趋势洞察（40 页）》

《Anthropic：2025 年 AI 经济影响报告：AI 如何融入现代经济的各类实际任务（38 页）》

【ICLR2025】《LLMS 能否识别您的偏好？评估 LLMS 中的个性化偏好遵循能力》

《改进单智能体和多智能体深度强化学习方法》（219 页）

《美国安全与新兴技术中心：2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》（英文版 29 页）

《世界经济论坛 & 麦肯锡：2025 以人才为核心：制造业持续变革的当务之急研究报告（40 页）》

《超越 ChatGPT 的 AI 智能体》（82 页 ppt）

《Harris Poll：2024 年汽车技术预测报告：消费者对先进汽车技术与功能的洞察（14 页）》

【新书】《人工智能智能体的应用》（527 页）

《哥伦比亚大学：超越 Chatgpt 的 AI agent 综述》

《欧盟标准组织 - 体验式网络智能（ENI）- 基于人工智能代理的下一代网络切片研究》

《中国科学院：2024 开放地球引擎（OGE）研究进展与应用报告（55 页）》

《中国工程院：2024 农业机器人现状与展望报告（70 页）》

《美国安全与新兴技术中心：2025 中国学界对大语言模型的批判性思考：通用人工智能 (AGI) 的多元路径探索研究报告（29 页）》

《罗兰贝格：2050 年全球趋势纲要报告之趋势五：技术与创新（2025 年版）（72 页）》

《理特咨询（ADL）：2025 解锁聚变能源：驾驭聚变能商业化的机遇与挑战研究报告（20 页）》

《埃森哲：技术展望 2025—AI 自主宣言：可能无限信任惟先 - 摘要（12 页）》

《怡安（AON）：2025 年气候和自然灾难洞察报告（109 页）》

《美国安全与新兴技术中心：2025 AI 翻车事故（AI incident）：强制性报告制度的关键要素研究报告（32 页）》

《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告》（英文版 64 页）

《欧洲创新委员会（EIC）：2024 年科技报告（65 页）》

《大模型基础完整版》

《国际人工智能安全报告》（300 页）

《怡安（AON）：2025 年全球医疗趋势报告（19 页）》

《前瞻：2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式（57 页）》

《联合国（United Nations）：2024 技术与统计报告：从业者投资法指南（67 页）》

《经济学人智库（EIU）：2025 全球展望报告：特朗普再次当选美国总统的全球影响（16 页）》

《大规模视觉 - 语言模型的基准、评估、应用与挑战》

《大规模安全：大模型安全的全面综述》

《Emplifi：2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察（37 页）》

《DeepMind：2025 生成式魂灵：预测人工智能来世的益处和风险研究报告（23 页）》

【AI4Science】《利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研》

《世界银行：2025 极端天气高昂代价：气候变化背景下的马拉维金融韧性构建研究报告（76 页）》

《北京理工大学：2025 年中国能源经济指数研究及展望报告》

《Space Capital：2024 年第四季度太空投资报告（22 页）》

《NetDocuments：2025 年法律科技趋势报告（32 页）》

《CB Insights：2024 年度全球企业风险投资（CVC）状况报告：私募市场交易、投融资数据及分析（130 页）》

《Artlist：2025 年全球内容与创意趋势报告（59 页）》

《IBM 商业价值研究院：2024 投资人工智能伦理和治理必要性研究报告：AI 伦理前线五位高管的真实故事（24 页）》

《世界基准联盟（WBA）：2025 塑造未来：对可持续发展目标（SDGs）影响最大的 2000 家公司研究报告（46 页）》

《清华大学：2025 年 DeepSeek 从入门到精通（104 页）》

《麦肯锡：2025 工作场所中的超级代理 (Superagency)：赋能人类解锁人工智能的全部潜力（47 页）》

《凯捷（Capgemini）：科技愿景 2025：关键新兴科技趋势探索（54 页）》

《硅谷银行（SVB）：2025 年上半年全球创新经济展望报告（39 页）》

《BCG：2025 工业运营前沿技术：AI 智能体 (AI Agents) 的崛起白皮书（26 页）》

《DrakeStar：2024 年全球游戏与电竞行业报告（26 页）》

《理特咨询（ADL）：2025 人工智能驱动的研究、开发与创新突破的新时代研究报告（80 页）》

《互联网安全中心（CIS）：2024 年网络安全冬季报告：回顾与展望（30 页）》

《方舟投资（ARK Invest）：Big Ideas 2025 - 年度投研报告（148 页）》

《DeepSeek：2024 年 DeepSeek-V2 模型技术报告：经济、高效的混合专家语言模型（52 页）》

《CB Insights：2024 年度全球风险投资状况回顾报告：私募市场交易、投融资和退出数据及分析（273 页）》

《全国智标委：2025 城市生命线数字化标准体系研究报告（105 页）》

《经合组织（OECD）：2024 年全球政府创新趋势报告：促进以人为本的公共服务（46 页）》

《DeepSeek_R1 技术报告》

《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么？》

《李飞飞最新 S1 模型的论文：s1 Simple test-time scaling》

《世界经济论坛 -《全球经济未来：2030 年的生产力》报告》

《2035 年技术融合估计：量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》

《百页大语言模型新书》（209 页 pdf）

《量子技术和网络安全：技术、治理和政策挑战》（107 页）

《大语言模型中的对齐伪造》（137 页）

《2035 年技术融合估计：量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》（美陆军 232 页）

《美国防部 CDAO：人工智能模型的测试与评估》（66 页 slides）

《自动驾驶的世界模型综述》

《Questel2024 深度学习领域专利全景报告》（英文版 34 页）

《深度解析 Palantir》（20250122_204934.pdf）

上下滑动查看更多

来源：人工智能学家

标签： deepseek 凯捷 rl 顿悟 grpo

本文地址：https://news.43u.com.cn/a/1002308.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐