AI 智能体解释

摘要：这是有关 AI 智能体的大型系列中的第一篇文章。尽管 2025 年被称为“AI 智能体之年 ”，但对许多人来说，是什么使 AI 系统成为“ 智能体 ”以及我们为什么应该关心仍然不清楚。在这篇文章中，我将描述这些系统的主要特征以及 3 个智能体级别的具体示例。

这是有关 AI 智能体的大型系列中的第一篇文章。尽管 2025 年被称为“AI 智能体之年 ”，但对许多人来说，是什么使 AI 系统成为“ 智能体 ”以及我们为什么应该关心仍然不清楚。在这篇文章中，我将描述这些系统的主要特征以及 3 个智能体级别的具体示例。

公司正在 AI 智能体上下大赌注。OpenAI 正在提供 Operator 和 DeepResearch 等模型。YC 表示，垂直 AI 智能体可能比 SaaS 大 10 倍。Cursor 和 Windsurf 等 AI 应用程序已经用智能体界面取代了他们的聊天界面。

这让智能体商们兴奋不已，甚至超越了 AI 公司。但是，对于外行来说，可能不清楚 AI 智能体（实际上）是什么。

造成混淆的原因之一是，没有人对 AI 智能体的单一定义达成一致。为了证明这一点，以下是一些来自领先组织的案例。

OpenAI：一个大型语言模型（LLM），配置了指令和工具；Hugging Face：大型语言模型 LLM 可以通过规划和使用工具执行更复杂的任务的系统；Anthropic：LLMs 动态指导自己的流程和工具使用，保持对完成任务方式的控制；

虽然我不会通过提出另一个定义来使事情变得更糟，但我将讨论跨越所有这些定义的几个关键特征。

LLM— 大型语言模型在智能体系统中起着核心作用；工具使用— 这些允许智能体超越 LLM 的基本文本生成并与外部世界交互（例如代码解释器、API 调用、RAG、内存）；自主性— 智能体（在不同程度上）决定如何完成给定的任务，这可能涉及计划、推理或带有某些停止标准的反馈循环；

LLMs与传统方法相比，允许我们构建更灵活、更强大的软件。这有两个主要原因。首先，他们可以处理请求并以自然语言生成响应，从而实现直观的用户界面。其次，LLMs 能够进行 0-shot 学习，即在没有明确训练的情况下执行任意任务。

但是，仅靠这些功能对于大多数应用程序来说是不够的。这是因为 LLMs（开箱即用的）缺乏为我们解决问题所需的上下文和对现实世界系统的访问权限。为了克服这个问题，我们通常会手动为模型提供上下文，并自己执行其建议的作。

智能体可以利用测试时计算扩展定律来执行比普通 LLM API 调用更好的任务。这只是一种花哨的说法，LLM 即生成的 Token 越多，其响应就越好。我们将在下面的 3 级智能体示例中了解如何利用这个想法。

AI 智能体的 3 个级别

由于人们无法就AI 智能体的单一定义达成一致，因此大多数从业者都谈论智能体系统。换句话说，与其将系统视为 AI 智能体或不作为 AI 智能体，不如将它们视为一个智能体范围，从无智能体（例如基于规则的系统）到人类级别的智能体。

为了证明这一点，我将分享 3 个智能体系统在智能体程度增加的具体例子。虽然这些方法都是不同的，但它们并不是相互排斥的。例如，级别 3（LLM 在循环中）可以是级别 2（LLM 工作流）的组件，而级别 1 （+LLM 工具）通常用于级别 3。

第 1 级：+ LLM 工具

如今，人们可能认为智能体的最简单的 AI 系统是LLM带有工具的增强系统。工具是任何 AI 智能体的关键组件，因为它们使系统能够与现实世界进行交互。

以下是智能体系统中使用的常用工具的示例。

网络搜索= 通过 Google 搜索或 DuckDuckGo 访问实时信息；代码解释器= 执行代码并处理其输出的能力；API 调用= 与程序接口（例如 YouTube、Gmail、Notion）交互以执行作；计算机使用= 使视觉对象LLM能够通过鼠标单击和键盘敲击与 GUI 交互；另一个模型= 调用另一个LLM或多模态模型来执行特定任务；文件读取器= 从.pdf和.csv等文件格式中提取文本；

此类智能体最流行的示例是 ChatGPT，它可以访问网络搜索、Python 解释器和文本到图像模型。这些简单的工具将 ChatGPT 从人们在社交媒体上分享的新奇事物（首次发布时）转变为实用的日常工具。

尽管这些工具对进行了LLM重大改进，但这些系统仍然受到根本限制。也就是说，他们依赖于单个LLM调用，这对于更复杂的任务来说可能不足，例如研究博客创意、选择最好的创意和编写初稿。

第 2 级：LLM 工作流程

工作流是一个图形，用于定义执行特定任务所涉及的步骤。在这里，图形在数学意义上使用，其中节点（即工作流中的步骤）通过有向链接（即步骤的顺序）连接。下面显示了一个示例。

将系统设计为LLM工作流有两个主要好处。首先，这些系统可以通过将复杂任务拆分为子任务并使用专用模块执行它们来处理复杂任务。其次，模块化设计允许更好地控制中间输出，使调试和避免不良系统输出变得更加容易。

虽然设计这些系统的方法无穷无尽，有些常见的设计模式，这些总结如下：

链接= 将任务分解为一系列步骤，其中前一步的输出被输入到后面的步骤中，例如 A → B → C路由= 对输入进行分类并将其定向到专用模块，例如 A → B 或 A → C并行化= 通过分段（即将任务分成更小的步骤并并行运行以提高速度）或投票（即多次运行同一任务并对最终输出进行性能投票）同时运行 LLMs，例如 A → B 和 A → C编排器将任务分解为子任务，并将其委托给工作器模块，例如 A → B 和 A → C评估者-优化器= 一个LLM生成响应，而另一个在循环中提供评估和反馈，例如 A → B → A

最后一种模式与列出的其他模式有着根本的不同，后者本质上是封闭式的，因为它们以有限的顺序执行步骤。然而，评估者-优化器为开放式任务打开了大门，这些任务可以（原则上）无限期地持续下去，这将我们带到了智能体的下一个层次。

第 3 级：LLM 循环中

尽管我们可以使用 Level 1 和 Level 2 描述的系统走得很远，但并非所有任务都可以一次性完成或由预定义的工作流程完成。相反，有些问题需要LLM探索和反思可能的解决方案。

这利用了 OpenAI 的 o1 和 DeepSeek-R1 等模型所展示的测试时计算扩展定律。然而，与这些模型不同的是，智能体系统不仅限于代币生成——它们可以使用工具与现实世界的系统交互并反映他们的反馈。

实现这种系统的一种常见方法是通过一个动作 + 反馈循环，重复直到满足特定任务。

构建此类系统的更复杂的方法是端到端强化学习。在这里，一个 LLM + 工具被赋予一个封闭式任务，并根据其响应接收训练信号（即的权重LLM被更新）。一个例子是 OpenAI 的 DeepResearch 功能，它使 ChatGPT 能够将研究查询分解为行动计划，并迭代探索和优化搜索结果。

AI 智能体建立在灵活性之上 LLMs，以创建能够解决现实世界中复杂任务的系统。在这里，我们讨论了不同级别的智能体系统的三个例子。

本文由 @来学习一下原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

来源：人人都是产品经理一点号

标签：智能体 llm ai智能体工作流解释器