复旦大学51页的论文，从强化学习的角度分析实现o1的路线图

摘要：论文指出，实现 o1 模型有四个关键部分。首先是策略初始化，通过海量文本数据预训练和指令微调，使模型发展出类人推理行为，具备高效探索复杂问题解空间的能力。其次是奖励设计，通过奖励塑造或建模提供密集有效的信号，如结果奖励和过程奖励，指导模型的学习和搜索过程。然后

近日，复旦大学及其他机构发布的一篇 51 页论文，从强化学习的角度分析了实现 o1 模型的潜在路线图，引发全球 AI 界关注。

论文指出，实现 o1 模型有四个关键部分。首先是策略初始化，通过海量文本数据预训练和指令微调，使模型发展出类人推理行为，具备高效探索复杂问题解空间的能力。其次是奖励设计，通过奖励塑造或建模提供密集有效的信号，如结果奖励和过程奖励，指导模型的学习和搜索过程。然后是搜索，利用 MCTS 等树搜索方法和连续修订来探索多种解决方案并迭代改进答案。最后是学习，采用政策梯度方法或行为克隆，利用搜索生成的数据来改进策略，避免高昂的数据标注成本，并有可能实现超越人类的表现。此外，论文还总结了多个 “开源版 o1” 项目，为相关研究提供了更多参考。

论文标题：搜索与学习的规模化：从强化学习视角重现 o1 的路线图

摘要：OpenAI o1 是人工智能领域的重要里程碑，在诸多需要强大推理能力的挑战性任务上达到了专家级水平。OpenAI 声称 o1 背后的主要技术是强化学习（OpenAI, 2024a;b）。近期的研究工作采用知识蒸馏等替代方法来模仿 o1 的推理风格，但其有效性受限于教师模型的能力上限。因此，本文从强化学习的角度分析了实现 o1 的路线图，重点关注四个关键组件：策略初始化、奖励设计、搜索和学习。策略初始化使模型能够发展出类人推理行为，使其具备有效探索复杂问题解空间的能力。奖励设计通过奖励塑造或奖励建模提供密集且有效的信号，为搜索和学习提供指导。搜索在训练和测试阶段生成高质量解决方案中起着至关重要的作用，通过更多计算可以产生更好的解决方案。学习利用搜索生成的数据来改进策略，通过更多参数和搜索数据可实现更好性能。现有的开源项目试图重现 o1，可视为我们路线图的一部分或变体。这些组件共同强调了学习和搜索如何推动 o1 的进步，为大语言模型（LLM）的发展做出了有意义的贡献。

在过去两年间，人工智能（AI）领域见证了大型语言模型（LLMs）前所未有的探索与发展。大语言模型已逐步演进，能够处理诸如编程和解决高等数学问题等日益复杂的任务。OpenAI 的 o1 是人工智能领域的一个重要里程碑，它能够生成极长的推理过程，并进行诸如澄清和分解问题、反思和纠正先前错误、在遇到失败模式时探索新解决方案等类似人类的推理行为。o1 模型极大地超越了之前大语言模型的推理能力，达到了与博士水平相当的性能。其卓越的推理成就标志着 OpenAI 在其通往通用人工智能（AGI）的五阶段路线图中迈向了第二阶段（“推理者”）。

o1 的博客和系统卡片表明，随着强化学习训练和推理计算量的增加，o1 的性能持续提升（OpenAI, 2024a;b）。这表明 o1 可能引发人工智能领域的两个范式转变：从（自）监督学习转向强化学习，以及从仅扩展训练计算到同时扩展训练和推理计算。

o1 通过强化学习增加训练时的计算量，并通过更多思考增加测试时的计算量。我们将搜索视为实现 o1 思考过程的一种方式，因为搜索具有可扩展性（Sutton, 2019），并且在强化学习中有许多成功的研究使用搜索进行训练和决策，如 AlphaGo（Silver 等人，2016）和 AlphaGo Zero（Silver 等人，2017）。在本文中，我们以强化学习为核心构建通往 o1 的路线图。我们的路线图如图 1 所示，由四个组件组成：策略初始化、奖励设计、搜索和学习。我们认为这四个部分是构建具有像 o1 那样强大推理能力的大语言模型的关键。

如图所示，我们的路线图从策略初始化开始。在大语言模型的背景下，策略通常指基于给定上下文（状态）生成下一个标记 / 步骤 / 响应（动作）的概率分布。策略初始化为大语言模型带来类似人类的推理行为，如任务组合、自我评估和自我纠正。接下来是奖励设计，其目的是为搜索和学习提供指导信号。奖励设计可以获取或重塑来自环境的奖励信号，或从偏好数据中学习奖励模型。策略初始化和奖励设计都是搜索和学习的准备工作。搜索在训练和测试阶段生成高质量解决方案中都起着重要作用，通过更多计算可以产生更好的解决方案。学习利用搜索生成的数据来改进策略。用于学习的数据来自大语言模型与环境的交互，而非由人类专家手动整理，因此无需昂贵的数据标注，并有可能实现超人性能。

由于强化学习的动作空间巨大，从头开始使用强化学习训练大语言模型极具挑战性。幸运的是，我们可以利用大量互联网数据预训练一个语言模型，建立一个能够生成流畅语言输出的强大初始策略模型。此外，提示工程和监督微调有助于模型获得类似人类的推理行为，使其能够系统地思考并验证自己的结果。这些方法使模型能够全面探索其解空间，从而具备更全面的问题解决能力。

奖励设计搜索和学习都需要奖励信号的指导来改进策略。存在不同级别的动作粒度，每个动作粒度对应不同级别的奖励信号粒度，这可以进一步探索。此外，在许多环境中，这些信号通常是稀疏的甚至不存在。为了将稀疏的结果奖励转换为密集的过程奖励，有一些奖励塑造方法（Ng 等人，1999）。对于奖励信号不可用的环境，如故事写作任务，我们可以从偏好数据（Bai 等人，2022a）或专家数据（Ng & Russell, 2000）中学习奖励模型。奖励模型的构建可以进一步发展为构建世界模型（Dawid & LeCun, 2023）。

搜索搜索在训练和测试阶段都起着至关重要的作用。训练时搜索是指从搜索过程中生成训练数据。与简单采样相比，使用搜索生成训练数据的优势在于搜索能产生更好的动作或解决方案，即更高质量的训练数据，从而提高学习效果。在推理过程中，搜索在改进模型的次优策略方面继续发挥着重要作用。例如，AlphaGo（Wan 等人，2024）在测试期间采用蒙特卡洛树搜索（MCTS）来提高其性能。然而，扩大测试时搜索可能会由于分布转移而导致反向缩放：策略、奖励和价值模型在一个分布上进行训练，但在另一个分布上进行评估（Gao 等人，2023）。

学习从人类专家数据中学习需要昂贵的数据标注。相比之下，强化学习通过与环境的交互进行学习，无需昂贵的数据标注，并提供了实现超人性能的潜力。在本路线图中，强化学习通过策略梯度或行为克隆利用搜索生成的数据进行学习。策略梯度方法具有较高的数据利用率，因为它们利用了正例和反例解决方案，而行为克隆在简单性和内存效率方面具有优势。搜索和学习之间迭代交互的一个突出例子是 AlphaGo Zero（Silver 等人，2017），它将蒙特卡洛树搜索（MCTS）（Metropolis & Ulam, 1949）作为搜索算法与行为克隆作为学习方法相结合，最终在围棋游戏中实现了超人的性能。

我们详细探讨了策略初始化（第 3 节）、奖励设计（第 4 节）、搜索（第 5 节）和学习（第 6 节）的潜在实现方式。此外，我们回顾了现有的开源 o1 项目，说明它们如何作为我们框架的组件或其中的特定实例（第 7 节）。最后，我们讨论了 o1 的未来发展趋势和相关挑战（第 8 节）。

由于本路线图是从强化学习的角度设计的，因此在本节中我们介绍强化学习的一些背景知识及其与大语言模型的联系。与其他学习范式不同，强化学习通过与环境的交互进行学习，而不是从静态训练数据集中学习。在强化学习中，智能体在探索过程中通过接收环境的奖励来学习。图 3 展示了大语言模型强化学习中智能体与环境的交互。

智能体是与环境交互的实体，根据其策略做出决策。形式上，策略是从状态到动作的映射。它通常表示为给定状态下动作的概率分布，智能体根据这些概率选择动作。

在大语言模型的背景下，智能体指的是大语言模型本身，其策略规定了基于当前状态的标记级、步骤级或解决方案级动作的概率分布。状态由在时间提供给模型的输入组成，包括用户输入和模型的早期输出。模型采取的动作取决于问题设置，可能涉及生成单个标记、完成一个步骤或提供一个解决方案。

环境是指智能体外部的系统或世界。它对智能体的动作做出响应，并以下一状态和奖励的形式提供反馈。

环境反馈可分为确定性或随机性。随机性反馈的特点是转移分布，如对话模型中用户的响应本质上是不可预测的。另一方面，确定性反馈不涉及随机性，会产生固定的下一状态和奖励。例如，当一个大语言模型解决数学问题时，转换是确定性的，当前状态和动作结合产生下一状态。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

2024 美国众议院人工智能报告：指导原则、前瞻性建议和政策提案

未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇

Deepmind：AI 加速科学创新发现的黄金时代报告

Continental 大陆集团：2024 未来出行趋势调研报告

埃森哲：未来生活趋势 2025

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

哈尔滨工业大学：2024 具身大模型关键技术与应用报告

爱思唯尔（Elsevier）：洞察 2024：科研人员对人工智能的态度报告

李飞飞、谢赛宁新作「空间智能」等探索多模态大模型性能

欧洲议会：2024 欧盟人工智能伦理指南：背景和实施

通往人工超智能的道路：超级对齐的全面综述

清华大学：理解世界还是预测未来？世界模型综合综述

Transformer 发明人最新论文：利用基础模型自动搜索人工生命

兰德公司：新兴技术监督框架发展的现状和未来趋势的技术监督报告

麦肯锡全球研究院：2024 年全球前沿动态图表呈现

兰德公司：新兴技术领域的全球态势综述

前瞻：2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战

美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）

罗戈研究：2024 决策智能：值得关注的决策革命研究报告

美国航空航天专家委员会：2024 十字路口的 NASA 研究报告

中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

GenAI 引领全球科技变革关注 AI 应用的持续探索

国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告

2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿

多模态可解释人工智能综述：过去、现在与未来

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

《机器智能体的混合认知模型》最新 128 页

Open AI 管理 AI 智能体的实践

未来生命研究院 FLI2024 年 AI 安全指数报告英文版

兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式英文版

Linux 基金会 2024 去中心化与人工智能报告英文版

脑机接口报告脑机接口机器人中的人机交换

联合国贸发会议 2024 年全球科技创新合作促发展研究报告英文版

Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来英文版

Gartner2025 年重要战略技术趋势报告英文版

Fastdata 极数 2024 全球人工智能简史

中电科：低空航行系统白皮书，拥抱低空经济

迈向科学发现的生成式人工智能研究报告：进展、机遇与挑战

哈佛博士论文：构建深度学习的理论基础：实证研究方法

Science 论文：面对 “镜像生物” 的风险

镜面细菌技术报告：可行性和风险

Neurocomputing 不受限制地超越人类智能的人工智能可能性

166 页 - 麦肯锡：中国与世界 - 理解变化中的经济联系（完整版）

未来生命研究所：《2024 人工智能安全指数报告》

德勤：2025 技术趋势报告空间计算、人工智能、IT 升级。

2024 世界智能产业大脑演化趋势报告（12 月上）公开版

联邦学习中的成员推断攻击与防御：综述

兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈英文版

Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察英文版

MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告

DeepMind：Gemini，一个高性能多模态模型家族分析报告

模仿、探索和自我提升：慢思维推理系统的复现报告

自我发现：大型语言模型自我组成推理结构

2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书

《自然杂志》2024 年 10 大科学人物推荐报告

量子位智库：2024 年度 AI 十大趋势报告

华为：鸿蒙 2030 愿景白皮书（更新版）

电子行业专题报告：2025 年万物 AI 面临的十大待解难题 - 241209

中国信通院《人工智能发展报告（2024 年）》

美国安全与新兴技术中心：《追踪美国人工智能并购案》报告

Nature 研究报告：AI 革命的数据正在枯竭，研究人员该怎么办？

NeurIPS 2024 论文：智能体不够聪明怎么办？让它像学徒一样持续学习

LangChain 人工智能代理（AI agent）现状报告

普华永道：2024 半导体行业状况报告发展趋势与驱动因素

觅途咨询：2024 全球人形机器人企业画像与能力评估报告

美国化学会 (ACS)：2024 年纳米材料领域新兴趋势与研发进展报告

GWEC：2024 年全球风能报告英文版

Chainalysis：2024 年加密货币地理报告加密货币采用的区域趋势分析

2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告

世界经济论坛：智能时代，各国对未来制造业和供应链的准备程度

兰德：《保护人工智能模型权重：防止盗窃和滥用前沿模型》-128 页报告

经合组织成年人是否具备在不断变化的世界中生存所需的技能 199 页报告

医学应用中的可解释人工智能：综述

复旦最新《智能体模拟社会》综述

《全球导航卫星系统（GNSS）软件定义无线电：历史、当前发展和标准化工作》最新综述

《基础研究，致命影响：军事人工智能研究资助》报告

欧洲科学的未来 - 100 亿地平线研究计划

Nature：欧盟正在形成一项科学大型计划

Nature 欧洲科学的未来

欧盟科学 —— 下一个 1000 亿欧元

欧盟向世界呼吁加入我们价值 1000 亿欧元的研究计划

DARPA 主动社会工程防御计划（ASED）《防止删除信息和捕捉有害行为者（PIRANHA）》技术报告

兰德《人工智能和机器学习用于太空域感知》72 页报告

构建通用机器人生成范式：基础设施、扩展性与策略学习（CMU 博士论文）

世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造英文版

人工智能行业应用建设发展参考架构

波士顿咨询 2024 年欧洲天使投资状况报告英文版

2024 美国制造业计划战略规划

【新书】大规模语言模型的隐私与安全

人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204

美国环保署 EPA2024 年版汽车趋势报告英文版

经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势英文版

华为 2024 迈向智能世界系列工业网络全连接研究报告

华为迈向智能世界白皮书 2024 - 计算

华为迈向智能世界白皮书 2024 - 全光网络

华为迈向智能世界白皮书 2024 - 数据通信

华为迈向智能世界白皮书 2024 - 无线网络

安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版

2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告

《2024 年 AI 现状分析报告》2-1-3 页.zip

万物智能演化理论，智能科学基础理论的新探索 - newv2

世界经济论坛智能时代的食物和水系统研究报告

生成式 AI 时代的深伪媒体生成与检测：综述与展望

科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版

计算机行业专题报告 AI 操作系统时代已至 - 241201

Nature 人工智能距离人类水平智能有多近？

Nature 开放的人工智能系统实际上是封闭的

斯坦福《统计学与信息论》讲义，668 页 pdf

国家信息中心华为城市一张网 2.0 研究报告 2024 年

国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告渗透度替代效应及对不平等状况英文版

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

毕马威 2024 年全球半导体行业展望报告

MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119

DeepMind 36 页 AI4Science 报告：全球实验室被「AI 科学家」指数级接管

《人工智能和机器学习对网络安全的影响》最新 273 页

2024 量子计算与人工智能无声的革命报告

未来今日研究所：2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成：十年回顾

《以人为中心的大型语言模型（LLM）研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告英文版

理解世界还是预测未来？世界模型的综合综述

GoogleCloudCSA2024AI 与安全状况调研报告英文版

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

上下滑动查看更多

来源：人工智能学家

标签：论文复旦大学路线图

本文地址：https://news.43u.com.cn/a/370508.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐