AI Agent:四大核心能力详解与技术演进

360影视 欧美动漫 2025-05-08 08:54 2

摘要:在人工智能领域的宏大版图中,智能体(Agent)正以迅猛之势,逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明,2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代(多模态感知网络、神经符号推理架构、具

在人工智能领域的宏大版图中,智能体(Agent)正以迅猛之势,逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明,2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代(多模态感知网络、神经符号推理架构、具身智能系统的深度融合),更预示着人机协作范式将进入「认知共生」的新纪元。科技巨头、开源社区与产业资本的竞逐布局(据Gartner预测,2025年全球智能体开发框架投入将突破270亿美元),折射出这场技术变革对全球数字生态的重构势能。当下,2025年被广泛视作智能体发展进程中具有里程碑意义的关键一年,其发展态势备受各界瞩目。

01智能体相关动态

近期,在AI江湖中,号称全球首个通用Agent的Manus如一颗耀眼流星划过,先是以惊人之势迅速走红,吸引无数目光聚焦。作为首个宣称实现通用目标推理能力的智能体框架,Manus初期凭借跨领域任务规划能力(据其白皮书显示在HuggingFace测试集达到87.3%的零样本迁移成功率)引发行业震动。然而伴随代码开源(GitHub仓库star数单周破15k),社区迅速发现其鲁棒性缺陷——在动态环境下的长期目标分解中存在16.2%的逻辑断层(MIT Tech Review第三方测评),暴露出符号推理与神经网络协同架构的工程化瓶颈。

与此同时,去年Anthropic低调发布的MCP,在今年如同被唤醒的沉睡巨人,开始崭露头角,逐渐受到业内广泛关注。更为引人注目的是,OpenAI果断出手,发布了人人皆可自建小型Manus的Agent API,这一举措犹如投入平静湖面的巨石,激起层层涟漪,为智能体的普及与应用开辟了全新的可能。

Manus代表的端到端学习派 vs. MCP倡导的模块化符号派 vs. OpenAI的LLM基座派,这场博弈将深刻影响未来十年人机协作的底层逻辑。

02智能体(Agent)的概念

Agent一词,直译过来为“代理”,在AI的专业语境中,常被译为“智能体”。回顾传统聊天机器人,其主要优势在于对文字的理解与处理,能够熟练回答各类问题,完成诸如修改邮件、轻松聊天等相对简单的任务。

然而,一旦面临复杂程度较高、需要多步骤协同执行且涉及与外界交互的任务时,传统聊天机器人便显得力不从心,难以有效应对。而智能体的核心使命,便是赋予AI自主完成任务的强大能力。这意味着当AI接收任务指令后,不仅要深度思考并规划出执行路径,更要切实将计划付诸实践,确保任务得以顺利推进。

从专业定义来看,AI Agent是一种具备感知环境变化、独立自主做出决策,并能够主动执行相应行动的先进人工智能系统。

03智能体的核心能力

Agent 的技术本质是构建能够自主完成复杂任务的人工智能实体,其核心在于打通“认知-决策-执行”闭环。这一过程依赖于四大核心能力。

环境感知与多模态理解:通过视觉、听觉、触觉等多模态输入,实现对物理与数字环境的动态解析(如GPT-4O对图像语气、视频时序的识别);自主规划与动态推理:基于思维链(CoT)、树状思考(ToT)等框架,实现任务拆解、路径优化与风险预判(如Otter模型端到端规划能力);工具调用与跨域操作:通过API接口、MCP协议、浏览器操控等技术,连接数字工具与物理设备(如Manus的网页自动化);记忆增强与知识进化:结合RAG检索与向量数据库,构建短期情境记忆与长期知识库(如MemGPT的分层记忆管理)。

3.1 感知能力:从单一模态到多模态融合

1、文本时代局限

最初,单纯的大语言模型主要依赖海量文本数据进行训练,其基础感知途径仅仅局限于接收用户输入的文本信息。为了突破这一局限,研究人员引入OCR工具,尝试将图片、PDF等格式文件转化为文本后输入给大模型。但这种方式存在明显弊端,在转换过程中会丢失大量关键信息,如图片中的丰富色彩、独特布局,以及声音里的语气语调等重要元素。

DeepSeek R1:仍专注于文本模型,体现技术路线分化。

2、多模态突破

直至2023年,GPT4推出vision版本,宛如一把钥匙,开启了多模态模型的大门,使得模型能够直接理解图片中的各类信息。随后在去年,GPT发布4O版本,更是实现重大突破,能够将图片、声音等多模态数据一并纳入训练范畴,从而精准理解和识别声音中的语气语调以及图片中的细微细节。甚至,部分能够识别视频时序的多模态模型也应运而生。

多模态感知使Agent能“看”世界、“听”声音,为复杂任务提供基础数据支持。

技术意义:多模态感知使Agent能“看”世界、“听”声音,为复杂任务提供基础数据支持。

3.2 规划能力:从线性推理到自主决策

1、早期困境

早期的大模型在回答问题时,常常表现得过于草率,缺乏深度思考与推理过程,一旦遭遇稍具复杂程度的推理问题,便极易出错。

2、规划方法演进

紧接着,Tree of Thoughts(ToT)方法也被提出,促使大模型能够预先构思多种不同思路,并从中筛选出最优方案。然而,由于早期大模型在规划能力方面缺乏系统性学习与训练,这些方法效果有限。于是,多个模型各司其职、协同合作完成任务的多智能体工作流诞生了。类似一站式,元器都是基于这一工作模式。但这种模式存在固有缺陷,其中间步骤完全依赖人为设定,一旦面对新任务,便需要重新设计流程。

3、自主规划突破

为实现大模型真正意义上的自主规划能力,OpenAI发布的O系列模型,以及国产DeepSeek R1 等推理型大模型,成功让大模型掌握在回答问题前自主推理的技能。

今年2月,OpenAI又推出Deep Research,其背后依托端到端训练后的O3模型,能够自主决定何时进行信息搜索、何时整理现有信息、何时展开深度搜索以及何时进行分析总结,整个过程摆脱了对预先设计工作流或人为指定步骤的依赖,实现了高度自主。

技术意义:规划能力是Agent从“执行者”升级为“决策者”的核心标志。

3.3 行动能力:从API调用到环境交互

1、API调用阶段

大模型与外界沟通的最初方式,主要依赖API调用。在这一过程中,研究者通过监督微调手段,让模型学会在需要调用工具时生成特定的API调用文本。这些文本经特定过滤机制筛选后,由外界系统识别并调用相应的功能函数,待函数运算完成,将结果反馈给大模型。

2 视觉交互创新

但API调用并非万能,现实世界中存在大量没有API接口的事物。为打破这一僵局,去年Anthropic发布Computer Use,致力于训练大模型从视觉层面看懂电脑屏幕并实现对电脑的操作。尽管该尝试目前成功率较低,尚处于初阶实验阶段,但为后续研究指明了方向。

随后,开源社区顺势推出Browser Use,借助传统网页自动化工具,巧妙地间接实现了模型对浏览器的控制,这一技术正是Manus操作网页的核心技术来源。

3、标准化协议

此后,Anthropic进一步创新,推出MCP(Model Context Protocol)模型上下文协议,通过统一接口规格,极大地方便了模型对各类工具的调用。与此同时,OpenAI也不甘示弱,发布了Agent SDK和新的Response API,并内置一系列实用工具,从行业标准和基建层面为模型更好地使用工具、完成复杂任务提供了坚实保障。

3.4 记忆能力:从短期缓存到长期知识库

1、短期记忆优化

在早期,大模型的上下文长度极为有限,短期记忆力表现不佳,与用户交流时,稍长的对话就会导致其遗忘之前的信息。为改善这一状况,业内掀起了提升上下文长度的热潮,以增强其短期记忆能力。

2、长期记忆增强

同时,RAG检索增强生成方案被引入,该方案将大模型需要长期记忆的知识预先存储至外部向量数据库,当需要时,模型可快速从中检索相关内容。这一举措不仅有效弥补了大模型长期记忆的短板,还显著减少了其在回答问题时出现的幻觉问题。

此外,智能体在执行任务过程中产生的各类信息同样需要妥善保存。为此,通过对任务执行过程中的关键信息进行总结、存储,并适时回顾,逐步构建起记忆模块。

3、前沿探索

与人类复杂精妙的记忆系统相比,当前智能体的记忆能力仍存在较大差距。为缩小这一差距,研究人员持续探索新方法,如DeepSeek开发的NSA(Native Sparse Attention)稀疏注意力机制,旨在进一步优化模型的记忆能力。

技术意义:记忆能力是Agent实现个性化服务与持续学习的基础。

04智能体现状与未来

在当前的智能体市场中,已经涌现出一批颇具实力的优秀产品。其中,编程Agent堪称最为成熟且实用的代表之一。它能够精准理解用户需求,自主编写、修改代码,熟练创建文件并成功部署网页,展现出强大的专业能力。

这里也给我司的代码助手 CodeBuddy打个广告,近期腾讯云代码助手 CodeBuddy 也发布了软件开发智能体 Craft,一句话生成可交付项目,实测数据显示,使用Craft开发智能体的用户,每日AI代码文件采纳率已达90%。

安装指引:https://copilot.tencent.com

紧随其后的是调查Agent,像Deep Research都在各自领域发挥着重要作用。此外,能操控手机的AutoGLM等智能体也在特定场景中展现出独特价值。同时,在医疗、数据分析、风险评估等专业性较强的特定行业领域,智能体同样找到了广阔的应用空间,为行业发展注入新的活力。

智能体作为人类智慧延伸至未知领域的全新形态,承载着无限可能。在这一历史进程中,我们应秉持智慧、勇气与谦卑的态度,积极拥抱充满变数与机遇的未来,携手共创人类与智能体和谐共生的美好明天。

来源:正正杂说

相关推荐