摘要:AI Agent能使用工具来在现实世界中获取实时信息或给出行动建议,为此,模型需要访问外部工具,自主规划和执行任务。 宽泛地来说,生成式AI Agent可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。 Agent是自治的(autonom
AI Agent能够自主使用工具完成目标
AI Agent能使用工具来在现实世界中获取实时信息或给出行动建议,为此,模型需要访问外部工具,自主规划和执行任务。 宽泛地来说,生成式AI Agent可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。 Agent是自治的(autonomous),只要提供了合适的目标,它们就能独立行动,无需人类干预;即使是模糊的人类指令,Agent也可 以推理出它接下来应该做什么,并采取行动,最终实现其目标。
Agent VS LLM:模型的知识仅限于其训练数据,AI Agent通过工具连接外部系统,在模型自带的知识之外,实时、动态扩展知识。 模型缺乏原生逻辑层,需借助提示词工程或使用推理框架(CoT、ReAct等)来形成复杂提示,指导模型进行预测,而AI Agent自 带原生认知架构,内置CoT、ReAct等推理框架或LangChain等编排框架。
AI Agent基础组件:模型、工具、记忆、规划
AI Agent的基础组件包括:模型(model)、工具(tool)、记忆(memory)、规划(planning)。 模型(model):Agent中用来做核心决策的大脑,可以是一个或多个任何大小的模型。 规划(planning):将大型任务分解成较小的、可管理的子目标,从而高效处理复杂任务。 工具(tool):基础模型在文本和图像生成方面非常强大,但无法与外部世界联动,有了工具,Agent便能够与外部数据和服务互动。 记忆(memory):用于获取、存储、保留和稍后检索信息的过程,帮助Agent积累经验、自我进化,以更一致、合理有效的方式行动。
AI Agent的结构——tools
工具是基础模型与外部系统进行实时、上下文感知的桥梁,目前主要有Functions、Extensions、Data Stores、Plugins等方式。 Extensions:一种以标准化方式连接API与Agent的组件,使Agent能够调用外部API,而不用管这些API背后的实现方式。 Functions:模型可以设置一组已知的函数,根据规范决定何时使用哪个函数,以及函数需要哪些参数。 Data Stores:向Agent提供增量数据,将传入的文档转换为一组向量数据库嵌入(embedding),为Agent所用来提取信息,典型的 例子是检索增强生成(RAG)。
AI Agent仍处于发展初期
L1级—采用基于规则的AI;L2级—转而使用基于互动学习(IL)/强化学习(RL)的AI,并增添推理和决策能力;L3级—改用基于LLM的 AI替换互动学习/强化学习的方式,并增加记忆(Memory)与自我反思(reflection),达到专家级别性能;L4级—在L3的基础上,加强 自我学习和泛化的能力,在特定任务上的表现超过人类;L5级—在L4的基础上,增加了个性(情感+性格)和协作行为 (MultiAgent),性能表现全面超越人类。
AI Agent的工作原理
AI Agent的响应质量依赖模型的推理能力和执行任务的能力,包括选择正确工具的能力,以及工具自身的好坏。 AI Agent的工作可以类比厨师做菜:1)收集信息(输入):顾客点的菜,后厨现有的食材等等;2)推理(思考):根据收集到的信息, 判断可以做哪些菜;3)做菜(行动):包括切菜、加调料、烹炒等等。在以上每个阶段,厨师(Agent)都根据需要进行调整,这个信息 接收、规划、执行和调整的循环描述的就是一个Agent用来实现目标的特定认知架构。 Agent使用以上一种或多种推理技术(ReAct、Chain-of-Thought、Tree-of-Thoughts等),接受特定的用户请求确定下一个最佳行动。
MultiAgent:群体协作提升系统性能
为什么需要MultiAgent?——随着任务复杂度增加,单一 智能体需要理解的语境和工具使用面临上下文窗口限制, 导致性能下降;多智能体协作通过动态任务分解、专业 化分工和协同工作克服这一挑战,这种协作可能产生智 能涌现,即系统整体表现超越单个智能体能力之和。 多智能体系统协作模式:层级指挥模式下,指挥官智能 体进行任务分解、整合各专家智能体返回的结果,专家 智能体执行任务、返回结果。自由协作模式下,各个智 能体分别交互,生成最终结果。多智能体框架包括 OpenAI Swarm、AutoGen、MetaGPT等。
MCP:AI工具统一接口,释放Agent空前潜力
当大语言模型与外部系统交互,一个企业面对不同的框架或系统,都需要参考其协议,去开发对应Tool,这是一个非常重复的工作。 MCP(Model Context Protocol,模型上下文协议)是Anthropic在2024年11月推出的一种开放协议,目的在于统一LLM和外部数据 源、工具之间的通信协议,支持多种大模型,可类比AI应用程序的USB-C接口。 MCP组件:主机(MCP Host)是用户与AI互动的应用程序(如Claude Desktop、IDE);服务器(MCP Server)位于工具端(如Slack、 数据库),能给予AI访问特定资源的权限;客户端(MCP Server)负责把AI的指令发送给服务端。
围绕MCP协议的生态系统正在逐步形成,有望重 塑AI Agent格局,带来新一代自主、多模态、深 度集成的AI体验。 MCP客户端:目前高质量的MCP客户端主要集中 在编码领域,但随着MCP协议成熟普及,未来有 望涌现出更多面向商业应用场景的MCP客户端。 MCP 市场和服务器托管解决方案: mcpt 、 Smithery和 OpenTools等平台,正在努力构建 MCP服务器的“应用商店”,让开发者能够更方 便地发现、分享和贡献新的MCP服务器,有助于 标准化高质量MCP服务器的访问,让AI Agent能 够动态地选择和集成所需的工具。服务器生成工 具(如Mintlify, Stainless)正在降低创建MCP兼 容服务的门槛。
GUI Agent从规则驱动迈向自治的端到端应用
2024年10月,Anthropic发布了Claude 3.5 Sonnet,并加持"Computer Use”能力,使其成为首个以图形用户界面(GUI) Agent形式, 可在公开测试中控制电脑的AI模型;2025年1月,OpenAI推出了Operator及其核心模型Computer-Using Agent (CUA),仅限$200/月 的Pro用户;2025年3月,Monica团队发布“全球首款通用型AI Agent”的Manus,进一步将Computer Use Agent的概念推向产品化。
OpenAI推出首款AI Agent Operator
2025年1月24日,OpenAI发布AI Agent Operator,能在浏览器上执行简单在线任务的网络应用,如预订音乐会门票、在线订购杂货等。 关键技术:由基于GPT-4o构建的新模型Computer-Using Agent (CUA)提供支持,CUA通过处理原始像素数据以了解屏幕上发生的情况, 并使用虚拟鼠标和键盘完成操作,可以导航多步骤任务、处理错误并适应意外变化。 Operator全计算机使用任务成功率:OSWorld(38.1%),WebArena(58.1%),WebVoyager(87%),超越之前最先进的基准结果;落后于 人类在OS World测试中的表现(72.4%)。
OpenAI开源Agent SDK,助力Agent应用开发
2025年3月12日,OpenAI发布全新Agents工具,旨在简化Agent的开发,包括:1) 新的Responses API:兼具Chat Completions API的 简单性和Assistants API的工具使用能力,支持此次新的三种内置工具;2) 新的Agents SDK:开源,轻量且强大的框架,用于编排单 Agent和多Agent工作流;3) 三种内置工具:网络搜索(web search)、文件搜索(file search)、电脑使用(computer use)。 OpenAI Agent SDK以开源、易用抢占生态卡位,推动AI Agent在各行业的大规模部署:目前流行的Agent开发框架如LangChain上手 成本较高,其内部高度抽象的设计往往需要开发者深入理解原理才能灵活使用,而OpenAI的Agent SDK采用模块化、可扩展的设计, 提高了系统的灵活性和可扩展性,使得开发者能够构建高度自定义的Agent应用。
中国创业团队发布通用AI Agent产品Manus
2025年3月6日,中国创业团队Monica发布一款名为Manus的产品,在评估通用人工智能助手解决现实世界问题的GAIA基准测试中, Manus取得了最先进(SOTA, State-of-the-Art)的成绩,性能超越OpenAI Deep Research。作为全球首款真正意义上的通用AI Agent,Manus能够独立思考、规划并执行复杂任务,直接交付完整成果。其名称来源于拉丁语 "Mens et Manus”,意为手脑并用,将知识用手执行。
Manus创始团队
Manus产品团队的创始人肖弘毕业于华中科技大学。2015年毕业后,肖弘创立夜莺科技,专注于企业微信SaaS工具,推出了“微伴助 手”“壹伴助手”,为企业提供高效的社交营销工具。获得腾讯、真格基金等知名投资机构数亿元投资,服务超200万B端用户。 2022年,创立Monica,专注海外市场,这是一款All-in-One的AI助手,用户在浏览器中点开图标,就能直接使用其接入的各大主流模型。 2023年,Monica通过收购热门插件"ChatGPT for Google"迅速扩展用户规模。收购后,Monica构建起AI工具矩阵,满足不同场景需求。 目前,Monica累计用户已突破700万,稳居AI Chrome插件第一梯队。 2024年7月,肖弘携张涛、首席科学家季逸超共同创立Manus AI。张涛曾在字节跳动负责国际化产品,随后在光年之外担任产品负责人。 季逸超在高二期间,便独立开发了“猛犸浏览器”(Mammoth),这款浏览器在苹果应用商店上线后,迅速获得了大量用户的青睐。
Manus创新点
从技术实现角度来看,Manus的本质是“虚拟机+compute use+artifacts+多Agent协同”,核心是对现有Cursor类产品的再封装,降低 使用门槛,让非技术用户也能更轻松地利用AI进行复杂任务编排。 Manus首席科学家对"Less Structure, more Intelligence”设计哲学的阐释:当你的数据足够优质、模型足够智能、架构足够灵活、工程足 够扎实,那么Computer Use、Deep Research、Coding Agent等概念就从产品特性变为了自然涌现的能力。 在产品设计上,将人类通用可理解的做事过程展示给用户,可通过对过程的反馈来纠正结果,进一步加深了可控性。
字节开源通用型AI Agent产品TARS
2025年1月,字节跳动开源智能体系统——TARS,基于自研原生GUI(图形用户界面)代理模型UI-TARS,能通过屏幕视觉解析与动作 序列规划,自动完成机票预订等跨应用操作;支持MCP,能够更灵活地对接各类模型并整合新功能,以适应复杂多变的业务环境。 在多项基准测试中表现出色:在VisualWebBench、WebSRC和ScreenQA-short等评测感知能力的基准上,取得领先;在定位能力评测 基准ScreenSpot Pro、ScreenSpot和ScreenSpot v2上也表现优异。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
来源:未来智库