AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

摘要：AI Agent能使用工具来在现实世界中获取实时信息或给出行动建议，为此，模型需要访问外部工具，自主规划和执行任务。宽泛地来说，生成式AI Agent可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。 Agent是自治的(autonom

AI Agent能够自主使用工具完成目标

AI Agent能使用工具来在现实世界中获取实时信息或给出行动建议，为此，模型需要访问外部工具，自主规划和执行任务。宽泛地来说，生成式AI Agent可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。 Agent是自治的(autonomous)，只要提供了合适的目标，它们就能独立行动，无需人类干预；即使是模糊的人类指令，Agent也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。

Agent VS LLM：模型的知识仅限于其训练数据，AI Agent通过工具连接外部系统，在模型自带的知识之外，实时、动态扩展知识。模型缺乏原生逻辑层，需借助提示词工程或使用推理框架（CoT、ReAct等）来形成复杂提示，指导模型进行预测，而AI Agent自带原生认知架构，内置CoT、ReAct等推理框架或LangChain等编排框架。

AI Agent基础组件：模型、工具、记忆、规划

AI Agent的基础组件包括：模型(model)、工具(tool)、记忆(memory)、规划(planning)。模型(model)：Agent中用来做核心决策的大脑，可以是一个或多个任何大小的模型。规划(planning)：将大型任务分解成较小的、可管理的子目标，从而高效处理复杂任务。工具(tool)：基础模型在文本和图像生成方面非常强大，但无法与外部世界联动，有了工具，Agent便能够与外部数据和服务互动。记忆(memory)：用于获取、存储、保留和稍后检索信息的过程，帮助Agent积累经验、自我进化，以更一致、合理有效的方式行动。

AI Agent的结构——tools

工具是基础模型与外部系统进行实时、上下文感知的桥梁，目前主要有Functions、Extensions、Data Stores、Plugins等方式。 Extensions：一种以标准化方式连接API与Agent的组件，使Agent能够调用外部API，而不用管这些API背后的实现方式。 Functions：模型可以设置一组已知的函数，根据规范决定何时使用哪个函数，以及函数需要哪些参数。 Data Stores：向Agent提供增量数据，将传入的文档转换为一组向量数据库嵌入(embedding)，为Agent所用来提取信息，典型的例子是检索增强生成(RAG)。

AI Agent仍处于发展初期

L1级—采用基于规则的AI；L2级—转而使用基于互动学习(IL)/强化学习(RL)的AI，并增添推理和决策能力；L3级—改用基于LLM的 AI替换互动学习/强化学习的方式，并增加记忆(Memory)与自我反思(reflection)，达到专家级别性能；L4级—在L3的基础上，加强自我学习和泛化的能力，在特定任务上的表现超过人类；L5级—在L4的基础上，增加了个性（情感+性格）和协作行为 (MultiAgent)，性能表现全面超越人类。

AI Agent的工作原理

AI Agent的响应质量依赖模型的推理能力和执行任务的能力，包括选择正确工具的能力，以及工具自身的好坏。 AI Agent的工作可以类比厨师做菜：1）收集信息（输入）：顾客点的菜，后厨现有的食材等等；2）推理（思考）：根据收集到的信息，判断可以做哪些菜；3）做菜（行动）：包括切菜、加调料、烹炒等等。在以上每个阶段，厨师(Agent)都根据需要进行调整，这个信息接收、规划、执行和调整的循环描述的就是一个Agent用来实现目标的特定认知架构。 Agent使用以上一种或多种推理技术（ReAct、Chain-of-Thought、Tree-of-Thoughts等），接受特定的用户请求确定下一个最佳行动。

MultiAgent：群体协作提升系统性能

为什么需要MultiAgent?——随着任务复杂度增加，单一智能体需要理解的语境和工具使用面临上下文窗口限制，导致性能下降；多智能体协作通过动态任务分解、专业化分工和协同工作克服这一挑战，这种协作可能产生智能涌现，即系统整体表现超越单个智能体能力之和。多智能体系统协作模式：层级指挥模式下，指挥官智能体进行任务分解、整合各专家智能体返回的结果，专家智能体执行任务、返回结果。自由协作模式下，各个智能体分别交互，生成最终结果。多智能体框架包括 OpenAI Swarm、AutoGen、MetaGPT等。

MCP：AI工具统一接口，释放Agent空前潜力

当大语言模型与外部系统交互，一个企业面对不同的框架或系统，都需要参考其协议，去开发对应Tool，这是一个非常重复的工作。 MCP（Model Context Protocol，模型上下文协议）是Anthropic在2024年11月推出的一种开放协议，目的在于统一LLM和外部数据源、工具之间的通信协议，支持多种大模型，可类比AI应用程序的USB-C接口。 MCP组件：主机(MCP Host)是用户与AI互动的应用程序（如Claude Desktop、IDE）；服务器(MCP Server)位于工具端（如Slack、数据库），能给予AI访问特定资源的权限；客户端(MCP Server)负责把AI的指令发送给服务端。

围绕MCP协议的生态系统正在逐步形成，有望重塑AI Agent格局，带来新一代自主、多模态、深度集成的AI体验。 MCP客户端：目前高质量的MCP客户端主要集中在编码领域，但随着MCP协议成熟普及，未来有望涌现出更多面向商业应用场景的MCP客户端。 MCP 市场和服务器托管解决方案： mcpt 、 Smithery和 OpenTools等平台，正在努力构建 MCP服务器的“应用商店”，让开发者能够更方便地发现、分享和贡献新的MCP服务器，有助于标准化高质量MCP服务器的访问，让AI Agent能够动态地选择和集成所需的工具。服务器生成工具（如Mintlify, Stainless）正在降低创建MCP兼容服务的门槛。

GUI Agent从规则驱动迈向自治的端到端应用

2024年10月，Anthropic发布了Claude 3.5 Sonnet，并加持"Computer Use”能力，使其成为首个以图形用户界面(GUI) Agent形式，可在公开测试中控制电脑的AI模型；2025年1月，OpenAI推出了Operator及其核心模型Computer-Using Agent (CUA)，仅限$200/月的Pro用户；2025年3月，Monica团队发布“全球首款通用型AI Agent”的Manus，进一步将Computer Use Agent的概念推向产品化。

OpenAI推出首款AI Agent Operator

2025年1月24日，OpenAI发布AI Agent Operator，能在浏览器上执行简单在线任务的网络应用，如预订音乐会门票、在线订购杂货等。关键技术：由基于GPT-4o构建的新模型Computer-Using Agent (CUA)提供支持，CUA通过处理原始像素数据以了解屏幕上发生的情况，并使用虚拟鼠标和键盘完成操作，可以导航多步骤任务、处理错误并适应意外变化。 Operator全计算机使用任务成功率：OSWorld(38.1%)，WebArena(58.1%)，WebVoyager(87%)，超越之前最先进的基准结果；落后于人类在OS World测试中的表现(72.4%)。

OpenAI开源Agent SDK，助力Agent应用开发

2025年3月12日，OpenAI发布全新Agents工具，旨在简化Agent的开发，包括：1) 新的Responses API：兼具Chat Completions API的简单性和Assistants API的工具使用能力，支持此次新的三种内置工具；2) 新的Agents SDK：开源，轻量且强大的框架，用于编排单 Agent和多Agent工作流；3) 三种内置工具：网络搜索(web search)、文件搜索(file search)、电脑使用(computer use)。 OpenAI Agent SDK以开源、易用抢占生态卡位，推动AI Agent在各行业的大规模部署：目前流行的Agent开发框架如LangChain上手成本较高，其内部高度抽象的设计往往需要开发者深入理解原理才能灵活使用，而OpenAI的Agent SDK采用模块化、可扩展的设计，提高了系统的灵活性和可扩展性，使得开发者能够构建高度自定义的Agent应用。

中国创业团队发布通用AI Agent产品Manus

2025年3月6日，中国创业团队Monica发布一款名为Manus的产品，在评估通用人工智能助手解决现实世界问题的GAIA基准测试中， Manus取得了最先进(SOTA, State-of-the-Art)的成绩，性能超越OpenAI Deep Research。作为全球首款真正意义上的通用AI Agent，Manus能够独立思考、规划并执行复杂任务，直接交付完整成果。其名称来源于拉丁语 "Mens et Manus”，意为手脑并用，将知识用手执行。

Manus创始团队

Manus产品团队的创始人肖弘毕业于华中科技大学。2015年毕业后，肖弘创立夜莺科技，专注于企业微信SaaS工具，推出了“微伴助手”“壹伴助手”，为企业提供高效的社交营销工具。获得腾讯、真格基金等知名投资机构数亿元投资，服务超200万B端用户。 2022年，创立Monica，专注海外市场，这是一款All-in-One的AI助手，用户在浏览器中点开图标，就能直接使用其接入的各大主流模型。 2023年，Monica通过收购热门插件"ChatGPT for Google"迅速扩展用户规模。收购后，Monica构建起AI工具矩阵，满足不同场景需求。目前，Monica累计用户已突破700万，稳居AI Chrome插件第一梯队。 2024年7月，肖弘携张涛、首席科学家季逸超共同创立Manus AI。张涛曾在字节跳动负责国际化产品，随后在光年之外担任产品负责人。季逸超在高二期间，便独立开发了“猛犸浏览器”(Mammoth)，这款浏览器在苹果应用商店上线后，迅速获得了大量用户的青睐。

Manus创新点

从技术实现角度来看，Manus的本质是“虚拟机+compute use+artifacts+多Agent协同”，核心是对现有Cursor类产品的再封装，降低使用门槛，让非技术用户也能更轻松地利用AI进行复杂任务编排。 Manus首席科学家对"Less Structure, more Intelligence”设计哲学的阐释：当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实，那么Computer Use、Deep Research、Coding Agent等概念就从产品特性变为了自然涌现的能力。在产品设计上，将人类通用可理解的做事过程展示给用户，可通过对过程的反馈来纠正结果，进一步加深了可控性。

字节开源通用型AI Agent产品TARS

2025年1月，字节跳动开源智能体系统——TARS，基于自研原生GUI（图形用户界面）代理模型UI-TARS，能通过屏幕视觉解析与动作序列规划，自动完成机票预订等跨应用操作；支持MCP，能够更灵活地对接各类模型并整合新功能，以适应复杂多变的业务环境。在多项基准测试中表现出色：在VisualWebBench、WebSRC和ScreenQA-short等评测感知能力的基准上，取得领先；在定位能力评测基准ScreenSpot Pro、ScreenSpot和ScreenSpot v2上也表现优异。