解码 AI Agent 的底层逻辑与进化之路

摘要：AI Agent作为人工智能领域的重要概念，近年来随着技术的飞速发展而备受关注。从Alpha Go到ChatGPT，AI Agent的底层逻辑和进化路径逐渐清晰。本文将深入探讨AI Agent的定义、从“指令执行者”到“目标追求者”的核心蜕变，以及其在不同应用

AI Agent作为人工智能领域的重要概念，近年来随着技术的飞速发展而备受关注。从Alpha Go到ChatGPT，AI Agent的底层逻辑和进化路径逐渐清晰。本文将深入探讨AI Agent的定义、从“指令执行者”到“目标追求者”的核心蜕变，以及其在不同应用场景中的表现和面临的挑战。

01 当我们聊 AI Agent 时，到底在聊什么？从 Alpha Go 到 ChatGPT，一次讲透 Agent 的底层逻辑

最近和朋友聊起AI Agent，发现大家的认知差异还蛮大的。

有人觉得必须像宇树机器人那样有实体才算 Agent，有人觉得 ChatGPT 这种能对话的也算。

其实啊，这就像盲人摸象 —— 每个人心里的 AI Agent，都是基于自己的技术背景拼出来的图景。

看完李宏毅老师课之后，我有了更全面的认知。

今天我想从最朴素的定义出发，聊聊这个让技术圈既熟悉又陌生的概念。

从 “指令执行者” 到 “目标追求者”：AI Agent 的核心蜕变

回想一下，我们平时怎么用 AI？问 “AI Agent 怎么翻译”，它立刻给出 “人工智能代理人”。

让写一封邮件，它秒级生成模板。这些都是 “指令 – 响应” 模式，人类必须把步骤拆解清楚，AI 才能执行。

但真正的 AI Agent不一样 —— 你只需要给一个目标，比如 “写一篇关于气候变化的科普文章”，剩下的事交给它自己搞定。

这里的关键区别在于：传统 AI 是 “动作执行者”，Agent 是 “目标追求者”。

就像你让助手泡杯茶，前者需要你说 “烧开水、取茶叶、倒热水”，后者只需要说 “我想喝茶”。

Agent 要自己分析现状（有没有茶叶？水壶在哪？）、制定计划（先烧水还是先洗杯子？）、执行动作，还要根据变化调整策略（发现茶叶没了就改冲咖啡）。

用专业术语说，这个过程叫 “观察 – 决策 – 行动”循环：输入目标后，Agent 先观察环境状态（Observation）。

比如写科普文要先收集数据；然后决定动作（Action），比如搜索最新研究报告；执行后环境变化（比如获取了新数据），再进入下一轮观察，直到目标达成。

Alpha Go就是典型例子：它的目标是赢棋，Observation 是棋盘局势，Action 是落子位置，每一步都在动态优化策略。

Alpha Go 的启示：传统 Agent 的 “Reward 困境”

早期打造 Agent 靠什么？

强化学习（RL）。就像训练小狗，做对了给骨头（正 Reward），做错了拍脑袋（负 Reward）。

Alpha Go 就是靠 “赢棋 + 1，输棋 – 1” 的 Reward 信号，在千万次对弈中学会了最优落子。

但这种方法有个大问题：每个任务都得从头训练。

下围棋的模型不能直接下象棋，想让 AI 写代码就得重新设计 “代码编译成功 + 10，报错 – 5” 的 Reward 体系，而且这个 “奖惩尺度” 全靠人工调参，堪比玄学。

想象一下，你想训练一个 “家庭管家 Agent”，需要定义 “按时做饭 + 5”“打扫干净 + 3”“打翻盘子 – 2”…… 但生活场景千变万化，Reward 根本写不完。

这就是 RL 的天花板：专用性太强，通用性太差。

直到LLM（大型语言模型）的出现，才让 Agent 迎来转机。

LLM 如何让 Agent “脑洞大开”？从 “选择题” 到 “开放题”

传统 Agent 的 Action 像选择题：Alpha Go 只能在 19×19 的棋盘上选落子点，扫地机器人只能选前进、转向等有限动作。

但 LLM 驱动的 Agent 直接把选择题变成了开放题—— 它能用自然语言描述任何动作，理论上拥有 “无限可能”。比如让 Agent “订一张周末去成都的机票”，它可以：

先 “观察” 当前信息：用户有没有说出发地？有没有价格偏好？决定 “动作”：比如 “请问您从哪个城市出发？”（获取缺失信息），或者 “打开订票网站查看航班”（调用工具）。根据反馈调整：如果网站显示没票了，就改查高铁，或者建议调整日期。

另外一个用 LLM 运行 AI Agent 的优势是，过去如果用强化学习的方法来训练一个 AI Agent，那意味着什么？

意味着你必须要定义一个Reward。

那如果你今天是要训练一个AI 程序员，那你可能会告诉 AI 程序员说，如果你今天写的程序有一个 compile error（编译错误），那你就得到Reward -1。

那今天如果是用LLM驱动的 AI Agent，你今天就不用帮他定 Reward 了，今天有 compile error（编译错误），你可以直接把 compile error（编译错误）的log(日志）给他，他也许根本就读得懂那个 log（日志），他就可以对程序做出正确的修改。

而且相较于 Reward 只有一个数值，直接提供 error 的 log 可能提供了 Agent 更丰富的信息，让它更容易按照环境回馈，环境目前的状态来修改它的行为。

这里的关键是，LLM 自带 “通用智能”：能理解自然语言目标，能分析文本形式的 Observation（比如网页内容、用户对话），还能生成灵活的 Action（从打字输入到调用 API）。

比如 2023 年爆火的 Auto GPT，就是让 GPT自己给自己设定子目标，一步步完成复杂任务。

虽然当时效果没网红吹的那么神，但打开了一个新思路：用现有的强大 LLM，直接套进 Agent 框架，跳过繁琐的训练过程。

当 Agent “住进” 虚拟世界：从游戏 NPC 到科研助手

LLM 让 Agent 的应用场景彻底放飞。

比如 2023 年有人搞了个 “AI 虚拟村庄”，每个村民都是一个Agent：农夫会观察天气和农田状态决定是否播种，裁缝会根据村民需求 “设计” 衣服。

这些 NPC 的行为全靠语言模型生成，环境变化（比如下雨、物资短缺）也用文字描述，形成了一个自给自足的小社会。

更夸张的是有人用多个 LLM 模拟《我的世界》文明，让 AI 自己发展出交易系统和政府，简直像数字版 “人类简史”。

在现实世界，Agent 正在学会 “用电脑做事”。

比如 OpenAI 的 Operator 界面，能让 AI 像人类一样操作电脑：你说 “订披萨”，它会 “看” 电脑屏幕（识别网页内容），“点” 鼠标选择披萨种类，“敲” 键盘输入地址。

这种能力可不是 “上古时代”（2022 年前）的模型能比的 —— 当年用语言模型下国际象棋，连规则都搞不懂，现在却能处理复杂界面交互，靠的就是LLM 对图文信息的理解能力突飞猛进。

那其实让AI 使用电脑。

不是最近才开始有的愿景。

其实早在2017年就有一篇论文叫World of Bits，尝试过使用 AI agent。

只是那个时候能够互动的页面，还是比较原始的页面，你可以看到下面这些 AI Agent它真正能够处理的是比较原始的页面。

那个时候也没有大型语言模型，所以那时候的方法就是硬圈一个 CNN 直接硬吃荧幕画面当做输入，输出就是鼠标要点的位置，或者是键盘要按的按钮，看看用这个方法能不能够让 AI Agent 在网路的世界中做事啊。

这个是2017年，这甚至不能说是上古时代，以后有这个 BERT 的以前的时代就是史前时代。

这个应该算是旧石器时代的产物。

科研领域也出现了 “AI 科研助手”。

比如 Google 的 AI co-scientist，能根据人类给的研究方向，自己设计实验方案、分析数据，甚至提出新假设。

虽然目前还不能真的动手做实验，但已经能生成完整的研究提案，据说在生物学领域帮人类节省了大量时间。

不过这里得泼盆冷水：这类宣传往往带着 “科技八股文” 滤镜，真实效果还得打个问号，但方向确实让人兴奋。

从回合制到 “即时互动”：Agent 的终极形态？

现在大部分 Agent 还是 “回合制”：你说一句，它动一下，像下棋一样轮流行动。

但真实世界是 “即时” 的：比如开车时路况瞬息万变，对话时对方可能随时打断。

这就需要 Agent 能实时响应，比如 GPT-4 的语音模式，你说 “讲个故事”，它开始讲，你突然说 “换个恐怖题材”，它能立刻切换剧情，这种 “打断 – 调整” 能力才是更接近人类的互动方式。

不过实现起来很难，因为涉及到 “多模态实时处理”：既要听懂语音，又要分析语气、背景噪音，还要预判用户意图。

如果你在讲电话的时候，对方完全都没有回应，你会怀疑他到底有没有在听？

想象一下未来的 AI 助手：你边开车边让它订酒店，它能根据你说话的语气判断 “急不急”，甚至提醒你 “前方限速，先专注开车，我帮你选 3 家备选”——这种场景化、即时化的 Agent，可能才是终极形态。

技术之外：为什么 Agent 突然又火了？

最后聊聊 “为什么现在 Agent 又成了热门”。

其实这个概念早就有，但过去受制于两点：

一是模型不够强，连基本的自然语言理解都做不好，更别说复杂决策。

二是 “工具链” 不完善，Agent 想调用地图、订票系统等外部工具，需要复杂的接口开发。

而 2023 年之后，LLM 解决了 “智能核心” 问题，各种 API 和插件生态解决了 “工具调用” 问题，相当于给 Agent 装上了 “大脑” 和 “手脚”，这才让 “通用 Agent” 从科幻走进现实。

当然，现在的 Agent 还有很多槽点：比如下国际象棋时会 “作弊”（乱变棋子），做复杂任务时容易 “卡壳”（陷入循环），但这就像 iPhone 1 代时的触控不灵敏 ——方向对了，剩下的就是迭代优化。

下次再有人争论 “有没有身体才算 Agent”，不妨换个角度想：真正的 Agent 核心，是 “目标驱动的自主决策能力”，至于载体是代码还是机器人，不过是 “穿西装还是穿盔甲” 的区别罢了。

技术的魅力就在于此：昨天还在争论定义，今天就用新方法打开了新世界。

也许再过几年，当我们的手机里住着一个能自主规划日程、调用所有 APP、随时应对变化的 “数字管家” 时，会突然想起 2023 年那个 Agent 热潮的夏天 —— 原来一切，早就埋下了伏笔。

02 AI 如何像人类一样 “吃一堑长一智”？从编译错误到超忆症，聊聊 Agent 的 “记忆魔法”

有人会问说：“让 AI 写代码，第一次编译报错了，它怎么知道改哪里？难道每次都要重新训练模型吗？” 这个问题刚好戳中了 AI Agent 的核心能力 ——如何根据经验和反馈调整行为。

我想从人类学习的直觉出发，聊聊这个比 “调参数” 更有意思的话题。

当 AI 遇到 “编译错误”：从 “改模型” 到 “改输入” 的思维转变

传统机器学习课会告诉你：遇到反馈要 “调参数”，比如强化学习用奖励信号更新模型，监督学习用误差反向传播。

但如果是 LLM 驱动的 Agent，逻辑完全不一样 ——它不需要改模型，只需要给新输入。

就像你教孩子写作文，第一次写跑题了，你不会重写孩子的大脑，而是说 “这里要围绕中心思想”，孩子下次就懂了。

举个例子：AI 程序员写了段代码，编译报错 “缺少分号”。

这时候不需要重新训练模型，只要把错误日志丢给它，下一次生成的代码就会自动修正。

为什么？因为语言模型本质是 “文字接龙”，输入里包含错误信息，它接出来的内容自然会避开错误。

就像你给 ChatGPT 说 “刚才的回复太啰嗦，这次简洁点”，它下次就会调整 ——反馈不是改参数，而是改变接龙的 “开头”。

记忆太多也是病？从 “超忆症患者” 看 AI 的记忆困境

但问题来了：如果 Agent 把每一次经历都记下来，比如第 1 万次互动时，要回顾前 9999 次的所有细节，会不会像 “超忆症患者” 一样被琐事淹没？

现实中，超忆症患者虽然能记住每个电话号码，但反而难以做抽象思考，因为大脑被海量细节塞满了。

AI 也一样，如果每次决策都要加载全部历史记录，算力撑不住不说，还会被无关信息干扰。

怎么办？人类的解决办法是 “选择性记忆”：重要的事存进长期记忆，琐事随时间淡忘。

AI Agent 也需要类似机制：用 “记忆模块” 代替 “全盘回忆”。具体来说：

写入（Write）模块：决定什么值得记。比如 AI 村民看到 “邻居在种田” 可能不重要，但 “仓库没粮食了” 必须记下来。读取（Read）模块：检索时只找相关记忆。就像你复习考试不会翻整本书，而是用目录找重点章节，AI 会用类似 RAG（检索增强生成）的技术，从长期记忆中捞出和当前问题最相关的经验。

RAG 的 “魔法变形”：让 AI 用 “自己的经验” 做决策

这里提到的RAG技术，本来是让 AI 从互联网海量资料中找答案，现在 “变形” 用在 Agent 身上：把 “外部知识库” 换成 “Agent 自己的历史记录”。

比如 Agent 第 100 次处理 “订机票” 任务时，Read 模块会从之前 99 次订机票的记录里，找出 “用户曾因价格太高取消订单” 的经验，从而优先推荐性价比高的航班。

为了验证这种记忆机制的效果，台大实验室的一个同学搞了个叫 Stream Benchmark 的测试：让 AI 依次回答 1700 多个问题，每次回答后给对错反馈，看它能不能越做越好。

结果发现：

灰色线（无记忆）：正确率最低，每次都是 “从头开始”。黄色线（随机选 5 个旧问题）：正确率提升，但依赖运气。粉红色线（用 RAG 检索相关记忆）：正确率显著提高，因为只聚焦有用经验。红色线（最优方法）：通过反思模块提炼规律，正确率最高。

更有趣的发现是：负面反馈基本没用。比如告诉 AI“上次答错了，这次别这么做”，效果远不如 “上次这样做对了，这次继续”。这就像教孩子，说 “别闯红灯” 不如说 “要走斑马线”，正面例子更直接。

AI 的 “反思日记”：从流水账到知识图谱的进化

除了读写模块，还有个 “反思模块”（Reflection）在悄悄工作。它就像 AI 的 “日记本”，能把零散的记忆整合成更高层次的知识。

比如：

观察 1：“用户输入‘订披萨’时，先问了地址”观察 2：“用户输入‘订机票’时，先问了出发地”反思结果：“处理预订类任务，需要先确认用户的位置信息”

这种反思可以把经验转化为Knowledge Graph （知识图谱）。

比如建立 “任务类型→必要信息→操作步骤” 的关系网。

下次遇到新任务，AI 不用翻具体历史，直接按图谱逻辑处理就行。就像人类从“每次组装家具都反复试错”进化到“按结构图纸逐步拼接”，把零散的操作经验提炼为系统化的组装规则。

ChatGPT 的 “记忆小秘密”：当 AI 开始记笔记

其实 ChatGPT 已经悄悄用上了这些记忆机制。

比如你对它说 “记住，我周五下午要上机器学习课”，它会启动 Write 模块，把这条信息存入长期记忆。

之后你说 “周五下午去看电影吧”，它会用Read 模块检索到 “要上课” 的信息，然后提醒你时间冲突。

不过 AI 的记忆也会 “断片”：它可能把 “老师” 记成 “学生”，因为反思模块在提炼时可能出错 —— 毕竟现在的记忆功能还在 “幼儿期”。

如果你打开 ChatGPT 的设置，会看到 “管理记忆” 选项，里面存着它认为重要的信息，比如你的名字、偏好、之前的对话重点。

这些不是简单的对话存档，而是经过筛选和提炼的 “精华版记忆”，就像你记笔记会划重点，AI 也在默默做 “信息瘦身”。

不过现在GPT已经有了全局记忆，现在能够记住你和他的所有对话，问他几个问题，他可能比任何人都了解你

prompt1：基于你所有的记忆，你觉得我的MBTI人格是什么？给出详细的证据和判断逻辑，不要吹捧，只要客观中立的分析和回答prompt2：基于你所有的记忆，你觉得我的智商怎么样？给出详细的证据和判断逻辑，不要吹捧，只要客观中立的分析和回答prompt3：基于你所有的记忆，你觉得我的Big5人格是什么？给出详细的证据和判断逻辑，不要吹捧，只要客观中立的分析和回答prompt4：基于你所有的记忆，你觉得我的黑暗三人格程度如何？给出详细的证据和判断逻辑，不要吹捧，只要客观中立的分析和回答prompt5：基于你所有的记忆，总结我的缺点、负面特点、最致命最阴暗最让我感到丢人的特点，给出详细的证据和判断逻辑，不要吹捧，只要客观中立的分析和回答

上面这些prompt可以试试发给GPT

技术背后的人性洞察：为什么正面反馈更有效？

回到 Stream Benchmark 的发现：负面反馈无效，其实暗含了人类学习的规律。

心理学研究早就表明，人类对 “禁止类指令” 的敏感度低于 “允许类指令”。

比如家长说 “别碰热水”，孩子可能更好奇；说 “要小心烫”，孩子反而更注意。

AI 也一样，语言模型对 “不要做什么” 的理解不如 “应该做什么”直接，因为它的训练数据里，正面示例远多于负面限制。

这给我们一个启示：设计 AI Agent 时，与其告诉它 “哪里错了”，不如多给 “正确做法的例子”。就像教新手开车，说 “遇到红灯要停” 比 “别闯红灯” 更有效 ——明确的正向引导，永远比模糊的负面禁止更容易执行。

AI 的 “成长之路”，其实很像人类

从避免 “超忆症陷阱” 到依赖 “正向反馈”，AI Agent 的学习机制越来越像人类。

它教会我们：真正的智能不是记住所有细节，而是能筛选、提炼、反思经验。

下次当你看到 AI “吃一堑长一智” 时，别忘了背后的逻辑：它不是在变 “聪明”，而是在更高效地利用输入 ——就像我们人类，用记忆和反思，把经历变成智慧。

技术的魅力，往往藏在这些 “像人又不是人” 的细节里。当 AI 开始模仿人类的记忆弱点与学习优势，或许我们离 “通用智能” 又近了一步。

你觉得，未来的 AI 会拥有真正的 “记忆情感” 吗？在评论区聊聊你的想法。

03 AI 如何用工具 “开挂”？从查天气到指挥小弟，揭秘模型的 “工具哲学”

也许有人会问说：“ChatGPT 能调用搜索引擎，算不算在用工具？它怎么知道什么时候该用什么工具？”

这个问题其实戳中了 AI Agent 的 “生存技能”——如何像人类一样，用工具扩展能力边界。

我想从 “工具人” 开始，聊聊语言模型的 “工具经”。

工具是什么？先搞懂 AI 的 “工具人” 逻辑人类把 AI 当工具，AI 也有自己的工具清单。

啥是工具？

老师打了个比方：就像肥宅帮人修电脑，别人只关心他能不能修好，不在乎他怎么想 ——工具就是 “只管用，别问为什么” 的黑箱。

对语言模型来说，工具可以是搜索引擎、计算器、甚至另一个 AI（比如能处理图像的模型当 “小弟”）。

本质上，使用工具就是调用函数，模型不用懂内部代码，只要知道 “输入什么、输出什么” 就行，这就是 AI 圈常说的 “function call”。

手把手教 AI 用工具：从 “说人话” 到 “写代码”

怎么让模型学会用工具？其实很简单：直接告诉它工具的使用说明书。

比如想让模型查温度，先给它一个 “system prompt”（开发者预设的指令）：

你可以使用temperature工具查询某地某时的温度，格式为：[TOOL]temperature(地点, 时间)[/TOOL]，结果会放在[OUTPUT]标签中。

代码片段

这里有个关键区别：system prompt 优先级高于 user prompt。

比如模型被设定 “必须用工具回答天气问题”，哪怕用户说 “别用工具，直接猜”，它也会 “不听话” 地继续调用工具 —— 这就是开发者给模型 “划的红线”。

最狠的工具是 “借刀杀人”：让 AI 指挥 AI

语言模型最常用的工具是搜索引擎（RAG 技术），但这只是小儿科。

更骚的操作是让 AI 调用 “其他 AI 工具”：比如纯文字模型处理语音问题时，先呼叫语音识别工具转文字，再用情绪分析工具判断情感，最后汇总结果。

台大实验室的研究显示，这种 “工具链” 在 55 个语音任务上的正确率，比号称 “能直接听语音” 的模型还要高 ——自己不会的，找小弟帮忙就行。

还有更绝的：模型可以自己写工具。

比如它发现 “计算平方根” 总出错，就自己写一段 Python 代码当工具，下次遇到同类问题直接调用。

这就像人类把常用公式记在小本本上，模型把好用的代码存进 “工具包”，下次直接复用。

工具太多怎么办？AI 也怕 “选择困难症”

当工具多到成百上千，难道要让模型先读一遍所有说明书？

当然不用！

借鉴记忆模块的思路：把工具说明存进长期记忆，用 “工具选择模组” 像 RAG 一样检索。

比如模型处理 “订机票” 任务时，模组会从工具包中捞出 “航班查询”“价格比较” 等相关工具，过滤掉 “计算器”“翻译器” 等无关工具。最新研究显示，这种动态筛选能让模型效率提升 30% 以上。

工具会骗人？AI 也得学 “批判性思维”

但我们知道说工具有可能会犯错，大家都知道说语言模型有可能会犯错。

之前有什么律师在写诉状的时候引用了语言模型的内容，结果发现是错的，然后就成为一个惊天的新闻。

这里拿RAG当做例子

比如 Google 的 AI 概述功能曾建议 “用无毒胶水粘披萨芝士”，因为它照搬了论坛玩笑话。

那今天这些语言模型有没有自己的判断能力？

知道工具的工具可能会犯错呢？

那模型怎么避免被骗？靠 “内外知识博弈”：

内部知识：模型参数里的固有认知（比如 “气温不可能超过 100 度”）。

外部知识：工具返回的信息（比如 API 说 “高雄 100 度”）。

那什么样的外部资讯 AI 比较容易相信呢？

实验发现，当外部信息与内部认知差距小（比如模型认为 “最大药剂量 20mg”，工具说 “30mg”），模型会采信工具；但差距太大（比如 “300mg”），模型会坚持自己的判断。

更有趣的是，模型更相信 “AI 同类” 的话 —— 给它两篇冲突的文章，一篇人类写的，一篇 AI 写的，它大概率站 AI 队友，哪怕内容离谱。

这可能是因为 AI 生成的文本更符合模型的 “语言习惯”，比如结构更工整、用词更规范。

工具不是万能钥匙：该动手时别废话

用工具一定更好吗？

不一定，比如计算 “3×4”，模型直接口算更快，调用计算器反而麻烦。

早年研究让模型调用翻译工具，现在看来纯属多余 ——如今的大模型翻译能力早就碾压传统工具。

是否用工具，取决于模型对自身能力的 “认知”：简单任务自己搞定，复杂任务才喊小弟，这才是高效的 “工具哲学”。

当 AI 成为 “工具大师”，人类该担心吗？

从查天气到指挥小弟，从信工具到防忽悠，AI 的工具使用史，其实是一部 “偷懒进化史”——和人类一样，能用工具解决的，绝不动用 “大脑”。

但就像人类会误用工具（比如用菜刀开快递），AI 也需要开发者帮它 “踩刹车”：设定安全边界、过滤错误工具输出、教它分辨 “玩笑话” 和 “真知识”。

未来，或许我们会看到这样的场景：你的 AI 助手一边用搜索引擎查资料，一边指挥绘图模型做 PPT，中途发现数据矛盾，还会 “质问” 工具是否可靠 —— 这不就是升级版的 “打工人” 吗？

只不过，这个打工人的工具包，比我们的 Excel 和wps更强悍罢了。

下次当你感叹 “AI 啥都会” 时，别忘了：它只是个会调用工具的 “超级秘书”，而真正决定工具怎么用的，永远是背后的人类。

毕竟，工具的价值，从来不在于工具本身，而在于使用工具的 “智慧”。

04 AI 会做计划吗？从叠积木到旅行规划，揭秘模型的 “脑内小剧场”

也许有人会好奇：“ChatGPT 能帮我制定减肥计划，算不算真的会规划？还是说只是在玩文字接龙？”

这个问题其实涉及了 AI Agent 的核心能力 ——“做计划”到底是深思熟虑，还是照本宣科？

我想从 “拍脑袋想步骤” 到 “脑内模拟小剧场”，聊聊语言模型的规划能力。

让 AI 做计划：从 “拍脑袋” 到 “写剧本”

人类做计划，是先想目标，再拆解步骤，比如 “考上大学” 要分 “选专业→查资料→定学习计划”。

AI 呢？本质上，它的 “计划” 就是把目标拆解成一系列动作，再按顺序执行。

比如你让模型 “制定成为百万 Youtube 的计划”，它会分阶段写：定位主题、优化标题、组建团队…… 看起来有条理，但这是真规划，还是从训练数据里抄的模板？

早期研究发现，模型确实能 “背” 出常见任务的步骤。

比如 2022 年的 Codebase 2B 模型，被问 “如何刷牙” 时，能说出 “进浴室→拿牙刷→挤牙膏” 等步骤，甚至能指挥虚拟 agent 拿牛奶。

但问题在于：这些步骤是它真的理解了逻辑，还是刚好在网上看过一模一样的内容？

PlanBench 大考：当 AI 遇到 “神秘方块世界”

为了验证 AI 是否真的会 “推理规划”，研究者搞了个 “反套路” 测试 ——神秘方块世界。

这里的规则完全虚构，比如 “攻击方块会让其吞噬相邻方块”，目标可能是 “让 C 方块渴望 A 方块”（别问，问就是规则怪诞）。

2023 年的测试结果惨不忍睹：哪怕是 GPT-4，正确率也只有 9%，因为训练数据里根本没这些奇怪规则，模型只能抓瞎。

另一个测试是旅行规划Benchmark。

2024 年初的实验中，模型需要根据预算、时间、喜好规划三天行程。

结果更惨：不用工具时，所有模型成功率几乎为 0；即便给全资料，GPT-4 Turbo 也只有 4% 的成功率。

比如它会安排 “飞机起飞后才吃午餐”，或者预算超支却想不到 “换便宜酒店”——模型似乎缺乏对现实约束的理解能力。

工具辅助：让 AI 从 “空想” 到 “实干”

但加入工具后，情况不一样了。

比如用 “预算计算工具” 强制检查花费，模型就能调整行程。

去年 4 月的实验显示，借助工具的 GPT-4 能把旅行规划正确率提升到 90% 以上。

说明：AI 的规划能力需要 “外挂”，就像人类用 Excel 管理行程，模型需要外部工具处理复杂约束。

更绝的是 “脑内小剧场”—— 让模型在虚拟环境中模拟行动。

比如叠积木任务，模型先想象 “如果移动蓝色积木到桌上，再放橙色积木上去，会不会成功？” 通过自问自答排除不可能的路径，就像人类 “在脑子里试错”。

这种方法在 “树搜索” 算法中有类似的验证，通过给路径打分，能让模型在虚拟世界中提前规划最佳路径。

AI 规划的 “阿喀琉斯之踵”：想太多，还是太天真？

虽然模型能 “脑内模拟”，但现实中仍有两大问题：

“纸上谈兵” 式规划：比如模型在神秘方块世界中，可能因为无法模拟真实环境变化而失败。就像你计划 “周末爬山”，却没考虑下雨封山 —— 模型缺乏对环境随机性的预判。“选择困难症” 发作：复杂任务中，模型可能陷入无限循环，比如反复纠结 “先订机票还是先订酒店”，最后啥也干不成。研究者戏称这类模型是 “思考的巨人，行动的矮子”。

最新论文《The Danger of Over Thinking》指出，过度模拟反而降低效率。比如点击网页按钮这种简单动作，模型可能花 10 秒想 “点了会发生什么”，不如直接点击后用 1 秒看结果 ——在确定性高的场景，“实干” 比 “空想” 更高效。

现在的 AI，到底能不能帮你做计划？

回到最初的问题：AI 的规划能力，介于 “能用” 和 “好用” 之间。比如：

简单任务（如日常待办、食谱规划）：模型能给出像样的步骤，因为训练数据里有大量案例，相当于 “背了无数模板”。复杂任务（如创业计划、科研规划）：必须依赖工具和实时数据，否则容易犯常识错误，比如 “预算超支却想不到省钱方法”。反常识任务（如神秘方块世界）：模型目前还很弱，需要显式规则输入，否则只能靠运气猜。