强化学习之于 AI Agent，是灵魂、还是包袱？

摘要：而要谈真正具备决策能力和自我意识的 Agent，其实要从 AlphaGo 的问世说起。这是 AI 首次展示出非模板化、非规则驱动的智能行为。而 AlphaGo 也靠着深度神经网络与 RL，进行自我对弈与自我优化，最终击败人类顶级棋手，敲响了 Agent 时代的

从 Workflow 到通用智能，还差着代际距离。

作者：郑佳美

编辑：马晓宁

自主决策能力是 Agent 受到重视，并被称为 AI 时代“新基建”原因。从这个角度看，Workflow 似乎做不出真正的通用 Agent。

而要谈真正具备决策能力和自我意识的 Agent，其实要从 AlphaGo 的问世说起。这是 AI 首次展示出非模板化、非规则驱动的智能行为。而 AlphaGo 也靠着深度神经网络与 RL，进行自我对弈与自我优化，最终击败人类顶级棋手，敲响了 Agent 时代的第一声锣。

从某种程度上说，Devin 可以算是通用 Agent 的滥觞。它首次把 AI 的编码能力、任务执行与反馈机制整合成一个完整的闭环，为后续产品提供了清晰的范例。

后来，Manus 延续了 Devin 的工作流思路，并提出 “More Intelligence” 的理念，不再满足于简单地串联工具，而是试图通过任务拆解、自我反思、模型调度等方式，让 Agent 具备更强的理解力和适应能力。而 Genspark 则走了一条更加模块化的路线，把每个任务步骤都变成一个可组合的部分，让开发者可以像拼乐高一样，快速搭建出属于自己的 Agent 系统。

但在当前主流关于“如何构建 Agent”的技术路径中，有两个被广泛认可的共识：一是拥有基础模型是构建 Agent 的起点，二是 RL 是赋予 Agent 连贯行为和目标感的“灵魂”。它决定了 Agent 如何理解环境反馈、进行长期规划，并作为连接 Perception 与行动 Action 的关键桥梁。

反观 Manus，由于缺乏底层模型能力和算法能力的支撑，它的系统结构相对开放，十分容易被模仿，甚至有团队在三天内就实现了复制，也因此被一些批评者视为“套壳”。不过从 AI 科技评论的角度看，这种批评也有失公允，毕竟 Manus 在产品设计和任务编排上依然有不少可圈可点的创新。

但“Agent 不能仅靠 Workflow 搭建”的看法，已经逐渐成为业内的共识。正是在这样的主流认知下，那些始终坚持深耕强化学习的团队，反而在新一轮技术演进中走到了更前沿的位置。

1 没有 RL 的 Agent，只是在演戏

Pokee AI 创始人、前 Meta AI应用强化学习团队负责人朱哲清，就是一位对 RL 始终坚定信仰的“长期主义者”。

朱哲清曾向 AI 科技评论表示，RL 的核心优势在于目标驱动，它不是简单地响应输入，而是围绕一个清晰目标，进行策略规划和任务执行。而一旦缺少了 RL 的参与，Agent 就容易陷入“走一步看一步”的模式，缺乏内在驱动力，最终难以真正胜任复杂任务的完成。

他认为真正的 Agent 的核心在于其执行能力与影响力。如果一个系统只是单纯地生成内容或文件，那它更像是一个普通的工具，而非真正的 Agent。而当它能够对环境产生不可逆的影响时，它才具备了真正的执行性。总的来说，只有与环境发生深度交互，且产生的影响不可逆，才能称之为真正的 Agent。

他表示带有 Workflow 的产品，实际上是 Agent 发展的初期形态。虽然它有明确的目标和流程，但仍需要人为干预，这样的系统仍处于早期阶段。真正的 Agent 不仅仅是按照预设的工具来操作，而是能够根据给定目标，自主选择和使用工具完成任务。

在他的认知中，Agent 的发展可以分为多个阶段。早期的例子，比如 Zapier 的工作流系统，更多是模拟人的决策行为，但并非真正智能的 AI Agent。之后又有了像 LangChain 这种类拖拽流的可组合型的任务执行模式，逐步向系统化过渡。到了现在，用 Claude 去做 MCP 的时候虽然工具的调用和规划能力都比较有限，但已经开始向更高水平的 Agent 演进。

而下一阶段的 Agent，将不再需要用户或开发者了解具体的工具或技术细节。用户只需简单提出任务要求，Agent 就能够根据目标自动选择工具，并规划解决路径。此时，整个过程的自主性与智能性将达到前所未有的水平，Agent 也将真正实现从工具到智能体的转变。

他坦言，RL 算法确实存在诸多挑战。比如线下训练时，使用的数据集与真实世界往往存在巨大差异，导致模型一旦从线下迁移到线上，就可能“水土不服”，再比如操作动作空间过大时，RL 系统很难稳定泛化，效率与稳定性之间的平衡始终是个难题。

但即便如此，朱哲清仍然坚持自己的判断：无论是 o1 还是 Rule-based reward model等模型范式的出现，RL 始终是站在技术舞台上的“隐形主角”。虽然它未必是 AGI 的唯一通路，但在迈向真正 “Superhuman Intelligence” 的过程中，RL 是一个无法绕开的技术节点。

在他看来，相比那些过于模糊、甚至略显理想化的 AGI 概念，能够超越人类在某些任务上的智能体，才是一个更实际、可度量的目标。RL，就是驱动这一目标落地的关键引擎。

2 有 RL 的 Agent，也能往前走

然而，凡事都有两面。有人坚信 RL 是 Agent 的核心驱动力，也有人对这个观点提出质疑。

香港科技大学（广州）博士生，DeepWisdom 研究员张佳钇就属于对 RL 持保留态度的那一派。他追求跨环境的智能体，在与 AI 科技评论对话时表示：现有RL技术虽能在特定环境中提升Agent能力，但这本质上是“任务特化”而非真正的智能泛化。在实现跨环境数据的有效统一表征之前，RL面临的跨环境学习困境难以突破。

他认为利用 RL 对语言模型进行环境内优化本身没有问题，但问题在于，目前很多研究使用的仍是能力较弱的基础模型（base model），即便训练到“最优”，也只是对单一环境的适配，缺乏跨环境的泛化能力。在他看来，“使用 RL 训出一个适应某个环境的 Agent 已经很近，但距离训出通用跨环境的 Agent 还有很长的一段路要走。”

同时他也并不完全认同“没有 RL 就没有 Agent”这一观点。他表示业界对 RL 的“过度崇拜”掩盖了一个关键事实：OpenAI Deep Research 的成功更多依赖于其强大的基础模型 o3 早期版本提供的先验知识，而非只有 RL 本身。

虽然近期的学术研究表明RL确实能提升较弱基础模型的能力，但提升幅度有限，这也正是学术界和初创公司面临的核心挑战——如何在缺乏顶级基础模型的情况下，通过建立持续有效的 RL 数据收集流程来缩小与巨头的差距。

不过，张佳钇也并不全盘否定 RL。他表示 RL 的局限性更多是技术阶段的产物，且目前尚未出现一个能够有效解决泛化问题的算法。因此，RL 的问题不完全是方法论本身，而是当前技术仍处于早期阶段。

除此之外，他还向 AI 科技评论表示，更期待能够看到一个跨环境泛化的模型（比如 UI-TARS-1.5） —— 在任何环境下都能执行不同任务，而不是针对某个环境进行“定制化适配”。在他看来，这样的模型可能在未来出现。一旦实现，“Agent 就只需要在模型上做个简单系统就可以了。”

在整体架构上，他也给出了他对 Agent 演化路径的划分 —— 他将 Agent 的发展过程分为六个阶段：

第一阶段：构成 Agent 系统的最底层节点，语言模型被调用来执行基本任务；

第二阶段：在底层调用节点基础上，构建出固定的 agentic workflow，每个节点的角色与职责预设明确；

第三阶段：底层组件演化为具有自身逻辑和动作空间的 autonomous agent；

第四阶段：多个 autonomous agents 通过主动交流机制构建系统，形成 Multi Autonomous Agent Systems（MAS）；

第五阶段：底层组件拥有与人类一致的环境空间，成为Foundation Agent，开始协助人类跨环境完成任务；

第六阶段：Foundation Agent 基于人类目标与其他 Agent 产生联系，演化出具备自主协作能力的Foundation Agents 网络。真正实现以人类目标为核心的多智能体社会，达到Agent与人类共生的范式。

而目前大多数 Agent 产品公司仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛，而“最大的瓶颈在于当前 Agent 仍严重依赖人类预设的 workflow 节点，缺乏真正的自主性。”

在张佳钇看来，当前大多数 Agent 产品仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛。突破当前瓶颈的关键在于使 Agent 摆脱人类预设经验的束缚，通过自主探索获取跨环境经验并学会与各类专业 Agent 协作。

但在 Follou 创始人谢扬来看，这个问题又有所不同。

他认为 Agent 和工作流自动化是可以组合起来的。在他眼中，Agent 应该是一些可以协助人类提升生产力的工具，而并非一个独立的个体。它的价值不在于模拟人类，而在于高效协助人类，把复杂的任务拆解、执行，并最终完成目标。

在谢扬看来，很多人过于执着于“Agent 是否像人”这个问题，而忽略了它真正的应用意义。他更关心的是，Agent 是否真的能在现实中帮人把一件事做完，无论是搜索信息、分析数据，还是调度工具，Agent 也不应该成为一个新的“入口”或者“平台”，而应该成为一种嵌入式能力，真正融入人类的工作流程之中，成为“能执行的思考”和“能学习的工具”。

在这个过程中，他并不否认“自主性”的重要性，尤其是在环境感知和情境理解上的价值。但在他看来，衡量一个 Agent 是否真正有生命力，更关键的标准在于它是否“可组合”“可调度”。只有当 Agent 能够被灵活地组织在不同的垂直任务中，支持模块化的能力组合，并与人类实现高效协同，它才真正具备长期应用的可能性。

基于这样的理念，Follou 也构建了一整套融合 Agent 与工作流的架构体系，他们将浏览器（Browser）、智能体（Agent）和工作流自动化（Workflow Automation）等核心组件融合在一起，浏览器负责访问和渲染 Web 内容，智能体负责基于 LLM 理解上下文和做出决策，而工作流自动化则执行具体任务，调用 API、插件或脚本。

在谢扬看来，这种结构并不是技术炫技，而是一种“实用主义”的选择。他更关心的是，Agent 是否真正能在现实中把一件事做完，而不是停留在看起来很聪明的幻觉里。

在 RL 信徒与质疑者的观点交锋中，我们能看到一个逐渐清晰的趋势：Agent 的演化已不再是单一范式的胜利，而是多种技术路线的协同博弈。归根到底，构建 Agent 从来不是拼哪一种技术最炫，而是拼能不能把每一块基础能力连接成一个真正可运行的系统。

从理解指令，到规划路径、感知反馈，再到调用外部工具完成任务，每一环都需要精密协作、形成稳定闭环。模型能力再强，如果没有目标规划和执行机制，也只能停留在“懂你在说什么，但却做不了任何事”的阶段，而即便策略再优秀，如果基础模型跟不上、感知不准确，也会陷入“会动但不聪明”的窘境。

所以，构建 Agent 不是“拼模型”或“赌范式”的零和游戏，而是一次工程能力、系统设计和认知理解力的多维较量。

RL 可以塑造目标感，模型提供理解力，外部接口延展执行力，三者缺一不可。而如何把这些能力组合在一起，真正打造成一个可泛化、可迁移甚至是可迭代的系统，才是 Agent 走向通用市场的重要一步。

3 一个新的未来

而现在每天被人们挂在嘴边的 Agent，其实最早在人工智能领域是一个非常宽泛的概念：只要一个系统具备感知和决策能力，它就可以被称为 Agent。

但随着 Copilot 类产品的兴起，Agent 的概念又被重新定义：是否需要人介入决策，成为划定 Agent 边界的关键标准。如果一个系统可以在没有人参与的前提下独立完成决策和执行，那它就属于真正意义上的 Agent。

在这个标准下，其实我们今天看到的大部分 AI 应用都可以被视为某种形式的 Agent。比如在编程领域，一个 AI 模型可以完成代码生成、编译、测试、修改的循环；在游戏中，AI 控制的角色可以自主应对环境变化，失败也不会造成真实世界的损失。这些任务虽然复杂，但由于风险较低、反馈明确，所以系统即使出错，问题也不大。

但如果朝着通用 Agent 的方向发展的话，那么最大的衡量标准，就不再是语言生成的能力或者执行速度，而是任务解决的成功率。从系统架构上来看，着往往取决于两种关键的设计：

如果是串行的 Agent 架构，即由一个上层 Agent 发出决策，再调度多个下层 Agent 执行子任务。如果是在这种模式下，调度层的指挥能力和下层的配合能力就直接决定了任务是否能够高效完成。

而如果是并行的 Agent 架构的话，则是需要多个智能体在同一时间共同协作完成任务，这就需要系统从头到尾都不能出错，因为就算每个环节的成功率都能够达到七八成，但最后的整体成功率也会指数级下降。

因此，要构建真正强大、可落地的通用 Agent，必须确保系统的稳定性、容错机制和跨模块协同能力，否则就难以胜任复杂任务。这便是目前通用 Agent 面临的主要问题。

而通用 Agent 一旦能够落地，它将会让大家的边际成本显著下降，同时望成为继 PC 操作系统和手机系统之后的新一代人机交互入口。这一点类似于当年微软和英特尔组成的“Wintel 模式”，即操作系统带来人机交互，芯片提供计算能力，二者结合直接引爆整个生态。同理，今天的苹果也凭借自研的 iOS 和芯片称霸移动端，而安卓阵营与高通的配合也形成了另一套强大体系。

顺着这个思路去想，在通用 Agent 的未来中，很可能会诞生类似的生态闭环：AI 操作系统 + 模型原生芯片，进而催生出下一代 Wintel 模式。到时候，我们或许将看到专为 Agent 设计的模型级芯片，亦或者是 AIPC 的兴起，共同见证整个智能交互方式的范式跃迁。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）

壳牌：2025 能源安全远景报告：能源与人工智能（57 页）

盖洛普 & 牛津幸福研究中心：2025 年世界幸福报告（260 页）

Schwab ：2025 未来共生：以集体社会创新破解重大社会挑战研究报告（36 页）

IMD：2024 年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214 页）

DS 系列专题：DeepSeek 技术溯源及前沿探索，50 页 ppt

联合国人居署：2024 全球城市负责任人工智能评估报告：利用 AI 构建以人为本的智慧城市（86 页）

TechUK：2025 全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52 页）

NAVEX Global：2024 年十大风险与合规趋势报告（42 页）

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma：2024 年全球生物制药行业展望报告：增长驱动力分析（29 页）

【AAAI2025 教程】基础模型与具身智能体的交汇，350 页 ppt

Tracxn：2025 全球飞行汽车行业市场研究报告（45 页）

谷歌：2024 人工智能短跑选手（AI Sprinters）：捕捉新兴市场 AI 经济机遇报告（39 页）

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心：2025 CSET 对美国人工智能行动计划的建议（18 页）

罗兰贝格：2024 人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11 页）

兰德公司：2025 从研究到现实：NHS 的研究和创新是实现十年计划的关键报告（209 页）

康桥汇世（Cambridge Associates）：2025 年全球经济展望报告（44 页）

国际能源署：2025 迈向核能新时代

麦肯锡：人工智能现状，组织如何重塑自身以获取价值

威立（Wiley）：2025 全球科研人员人工智能研究报告（38 页）

牛津经济研究院：2025 TikTok 对美国就业的量化影响研究报告：470 万岗位（14 页）

国际能源署（IEA）：能效 2024 研究报告（127 页）

Workday ：2025 发挥人类潜能：人工智能（AI）技能革命研究报告（20 页）

CertiK：Hack3D：2024 年 Web3.0 安全报告（28 页）

世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告

迈向推理时代：大型语言模型的长链推理研究综述

波士顿咨询：2025 亚太地区生成式 AI 的崛起研究报告：从技术追赶者到全球领导者的跨越（15 页）

安联（Allianz）：2025 新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33 页）

IMT：2025 具身智能（Embodied AI）概念、核心要素及未来进展：趋势与挑战研究报告（25 页）

IEEE：2025 具身智能（Embodied AI）综述：从模拟器到研究任务的调查分析报告（15 页）

CCAV：2025 当 AI 接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124 页）

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

全国机器人标准化技术委员会：人形机器人标准化白皮书（2024 版）（96 页）

美国国家科学委员会（NSB）：2024 年研究与发展 - 美国趋势及国际比较（51 页）

艾昆纬（IQVIA）：2025 骨科手术机器人技术的崛起白皮书：创新及未来方向（17 页）

NPL&Beauhurst：2025 英国量子产业洞察报告：私人和公共投资的作用（25 页）

IEA PVPS：2024 光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65 页）

AGI 智能时代：2025 让 DeepSeek 更有趣更有深度的思考研究分析报告（24 页）

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37 页）

华为：2025 鸿蒙生态应用开发白皮书（133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟（QuIC）：2024 年全球量子技术专利态势分析白皮书（34 页）

美国能源部：2021 超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60 页）

罗马大学：2025 超级高铁（Hyperloop）：第五种新型交通方式 - 技术研发进展、优势及局限性研究报告（72 页）

兰德公司：2025 灾难性网络风险保险研究报告：市场趋势与政策选择（93 页）

GTI：2024 先进感知技术白皮书（36 页）

AAAI：2025 人工智能研究的未来报告：17 大关键议题（88 页）

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信：2025 全球洪水风险研究报告：现状、趋势及应对措施（22 页）

兰德公司：迈向人工智能治理研究报告：2024EqualAI 峰会洞察及建议（19 页）

哈佛商业评论：2025 人工智能时代下的现代软件开发实践报告（12 页）

德安华：全球航空航天、国防及政府服务研究报告：2024 年回顾及 2025 年展望（27 页）

奥雅纳：2024 塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28 页）

HSOAC：2025 美国新兴技术与风险评估报告：太空领域和关键基础设施（24 页）

Dealroom：2025 欧洲经济与科技创新发展态势、挑战及策略研究报告（76 页）

《无人机辅助的天空地一体化网络：学习算法技术综述》

谷歌云（Google Cloud）：2025 年 AI 商业趋势白皮书（49 页）

《新兴技术与风险分析：太空领域与关键基础设施》最新报告

150 页！《DeepSeek 大模型生态报告》

军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态 - 250309（40 页）

真格基金：2024 美国独角兽观察报告（56 页）

璞跃（Plug and Play）：2025 未来商业研究报告：六大趋势分析（67 页）

国际电工委员会（IEC）：2025 智能水电技术与市场展望报告（90 页）

RWS：2025 智驭 AI 冲击波：人机协作的未来研究报告（39 页）

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界：多模态生成模型的统一综述

中国信息协会低空经济分会：低空经济发展报告（2024 - 2025）（117 页）

浙江大学：2025 语言解码双生花：人类经验与 AI 算法的镜像之旅（42 页）

人形机器人行业：由 “外” 到 “内” 智能革命 - 250306（51 页）

大成：2025 年全球人工智能趋势报告：关键法律问题（28 页）

北京大学：2025 年 DeepSeek 原理和落地应用报告（57 页）

欧盟委员会人工智能与未来工作研究报告

加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用

电子行业：从柔性传感到人形机器人触觉革命 - 250226（35 页）

RT 轨道交通：2024 年中国城市轨道交通市场数据报告（188 页）

FastMoss：2024 年度 TikTok 生态发展白皮书（122 页）

Check Point：2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议（57 页）

【AAAI2025 教程】评估大型语言模型：挑战与方法，199 页 ppt

《21 世纪美国的主导地位：核聚变》最新报告

沃尔特基金会（Volta Foundation）：2024 年全球电池行业年度报告（518 页）

国际科学理事会：2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告（英文版）（118 页）

光子盒：2025 全球量子计算产业发展展望报告（184 页）

奥纬论坛：2025 塑造未来的城市研究报告：全球 1500 个城市的商业吸引力指数排名（124 页）

Future Matters：2024 新兴技术与经济韧性：日本未来发展路径前瞻报告（17 页）

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性：从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心：2024 美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28 页）

空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224（33 页）

Gartner：2025 网络安全中的 AI：明确战略方向研究报告（16 页）

北京大学：2025 年 DeepSeek 系列报告 - 提示词工程和落地场景（86 页）

北京大学：2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用（99 页）

CIC 工信安全：2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42 页）

中科闻歌：2025 年人工智能技术发展与应用探索报告（61 页）

AGI 智能时代：2025 年 Grok - 3 大模型：技术突破与未来展望报告（28 页）

上下滑动查看更多

来源：人工智能学家

标签：灵魂 agent aiagent 包袱 rl

本文地址：https://news.43u.com.cn/a/1333982.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐