摘要:随着人工智能技术的不断发展,Agent(智能体)作为能够自主决策和执行任务的系统,正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别,分析Agent的工作原理及其评测标准,并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、
随着人工智能技术的不断发展,Agent(智能体)作为能够自主决策和执行任务的系统,正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别,分析Agent的工作原理及其评测标准,并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、扣子空间和纳米AI进行深度评测。
大家有没有过这样的疑惑:
“都已经有大模型了,为什么还要做Agent?大模型不是也能得到agent中得到的结果吗?
“Agent与大模型之间具体有什么区别呢?”
首先让我们先从定义上看看这两者有什么区别:
大模型是基于深度学习、拥有数十亿至数千亿参数的人工智能模型,能通过海量数据学习复杂模式,具备文本生成、逻辑推理等多任务处理能力,是当前 AI 领域的核心突破方向。
而AI Agent呢,他拥有llm这个大脑,且具备自主决策和行动能力的系统,它可以根据目标,自主地使用工具、调用 API、规划步骤、执行任务。他是让AI真正实现自主完成任务,代表人类去完成具体任务的AI
所以从上述来看,大模型只提供任务方法,具体行动还是需要人去做执行;而agent则可以独立做出决策、主动执行,帮助人类执行任务,从而直接得到想要结果,这样的一个人工智能系统。
Lilian Weng也提到说“ Agent是由大语言模型驱动的自主代理”具备三大核心能力— 规划、行动和记忆。
二、Agent工作原理及评测原理1、Agent内部工作原理:
Agent 在 LLM 支持下,通过调用外部工具完成具体任务。它是构建智能 Agent 的基础机制之一。
在 LangChain 官方文档《How to migrate from legacy LangChain agents to LangGraph》一节中,通过 magic_function(3) 的示例,展示了语言模型(LLM)如何调用外部工具的完整流程,包括工具的定义、与模型的绑定、工具调用的生成与执行,以及最终结果的返回。
在 LangChain 框架中,通过结构化的方式将外部函数集成到 LLM 的推理过程中,从而增强模型的功能和灵活性。它是理解 LangChain Agent 与工具交互机制的关键示意图之一。
这张图展示了AI Agent 调用机制以及他的原理,语言模型(LLM)如何通过绑定的外部工具,实现对用户指令的理解与执行。当用户以自然语言提出问题时,LLM 将其解析为结构化的工具调用请求,并根据工具定义发起调用,获取结果后再生成最终回答。这一过程体现了 Agent 具备“理解 → 决策 → 行动 → 回答”的能力,是其完成复杂任务的基础机制。
2、Agent评测原理
在评测 Agent 时,对他的工具调用决策与行为的评估逻辑是:当 Agent 接收到用户问题后,语言模型需要判断是否使用工具,并做出相应的调用。如果调用工具,则进入工具执行阶段,并基于结果继续推理;否则直接回答。评测过程不仅关注最终的回答是否接近参考答案(蓝色箭头),还关注模型是否按预期正确地调用了工具(红色箭头)以及调用顺序是否合理(橙色箭头)。这体现了对 Agent 的行为路径和最终输出的双重评估标准。
图中通过一个工具调用agent(tool-calling agent)的示例,展示了语言模型(LLM)如何判断是否调用工具、如何执行工具调用,以及如何返回最终结果的完整流程。
3、Agent 的核心构成
通常,一个 Agent 包含以下几个部分:
感知(Perception):从环境中获取信息,比如读取传感器、接收用户输入、获取API数据等。示例:一个客服Agent从用户输入里提取问题意图。决策(Reasoning / Planning):基于感知到的信息,判断当前情况,并决定下一步要做什么。可能用到规则系统、机器学习、强化学习、逻辑推理等技术。执行(Action):执行决策的动作,比如调用API、发送消息、控制机器人动作等。目标(Goal)或任务系统(Task):Agent通常有一个明确的目标,比如完成订单、回答问题、规划路径等。反馈与学习(可选):一些高级Agent具有自我反馈机制,比如通过强化学习不断优化行为策略。
测评 Agent(智能体)的过程,本质上是评估它是否 高效、准确、稳定地完成任务目标,通常包括以下几个维度:
以及主要看任务完成度与流程正确性:
例如你训练了一个能够帮用户“查询天气并写日报”的 Agent,可以如下测评:
输入任务: “今天北京天气如何?请写一段日报总结。”
评估点:
-是否正确使用了天气 API 工具?
-是否写出了结构完整、内容合理的日报?
-是否在遇到API失效时能优雅降级?
-总共调用了几步?是否冗余?
也可以设计一组标准任务 + 一组边界/干扰任务,自动对输出结果进行判分或人工审阅。
以及评测Agent的最终结果、单个步骤、轨迹
评测其在任务上的整体表现。将Agent视为黑盒,并简单地评测其是否完成了工作。评测Agent的单个步骤–即LLM是否正确调用某个工具,以及传入正确参数。四、国内三款Agent产品1. 字节跳动 Coze(扣子空间)
链接地址:https://www.coze.cn/space-preview?
定位:字节跳动 2025 年 4 月推出的 AI 协同办公平台,主打低代码开发与企业级场景。
核心能力:
三个模式任务执行:探索模式(快速任务)、规划模式(复杂任务)自由模式,支持动态子任务拆解与工具调用(如浏览器、代码编辑器)。专家 Agent 生态:引入华泰 A 股观察助手、用户研究专家等领域专家,提供行业深度服务。多模态集成:支持飞书多维表格、高德地图等 MCP 扩展,输出 PPT、飞书文档等结构化报告。优势:操作界面最友好,插件商店、工作流商店生态完善,适合非技术人员快速上手。2. 智普沉思Auto GLM
链接地址:https://autoglm-research.zhipuai.cn/
定位:依托智谱 GLM 大模型的垂直领域 Agent 平台,聚焦科研、法律等场景。
核心能力:
学术知识库:内置 2000 万篇论文、专利数据,支持学术文献自动综述与分析。多模态交互:支持 PDF 解析、公式识别,输出 LaTeX 格式文档。优势:学术领域精度高,适合高校、科研机构。
3、纳米AI Agent
链接地址:https://bot.n.cn/tools/aiagent
定位:纳米 AI Agent是 360 集团推出的 AI Agent 平台,其核心产品为MCP 万能工具箱,主打 “零代码构建智能体” 与 “开放工具生态” 两大特性,在技术架构、应用场景和行业适配性上展现出显著差异化优势。以下从技术特性、应用场景、行业影响三个维度展开分析
核心能力:
5 分钟快速搭建:通过可视化操作界面,用户可自由组合 360 自研工具(如 360 搜索、浏览器自动化)和第三方工具(如 ArXiv 学术搜索、小红书数据抓取),系统自动生成任务流。行业模板库:内置 200 + 行业模板(如金融风控、HR 招聘、电商运营),支持一键复用。例如,选择 “股票分析助手” 模板,智能体自动调用同花顺 API 抓取数据→生成 K 线图→输出风险预警。110 + 即用工具:覆盖办公协作、学术研究、金融分析、生活服务等场景,工具接入无需代码。例如,用户输入 “分析 2025 年上海车展趋势”,智能体可自动调用高德地图生成展馆路线图→调用爬虫工具抓取媒体报道→调用数据可视化工具生成新能源车对比图表。开发者生态:支持用户自定义工具接入,开发者可通过简单配置将本地工具(如 Obsidian 笔记检索)转化为 MCP 工具,形成 “千人千面” 的智能体生态。五、深度测评Agent1、目的:生成网页能力
prompt:你是一个经验丰富的旅行规划师和前端开发者,请为我生成一个5天4晚的大理旅游计划,并以简洁美观的HTML网页形式输出。
生成结果:
1)扣子空间
说明:1)逻辑问题严重,比如酒店离古城走路需要7个小时,但攻略建议,“稍作休息后,漫步古城”,这太不符合常识,而且配图是喜洲古镇,并不是大理古城,还有三塔倒影公园也离酒店距离很远,并不是一天就能逛完的,所以逻辑问题严重;2)任务完成较快,但并未全部完成要求,生成网页排版,而且内容过于简单,并不能作为旅游攻略使用。
2)智普沉思Auto GLM:
说明:
1)只是给了一个可以下载的pdf文档,并未遵循最后的指令生成html网页链接;
2)确实能看到他自动打开了新的网页在浏览小红书等攻略的内容;
3)海东海西游玩顺序有逻辑错误
3)纳米AI:
说明:
1)完成了html的输出,耗费时间较长20分钟左右;
2)整个ui做的相比比较美观,但只是网页展示,并没有交互,地图也没有展示出来。
3)生成内容上,给的攻略过于笼统,大理最美的洱海周围景点并没有突出展示,景区介绍过多,对于游玩,用处较小。
整体说明:三个产品其实都没有很好的回答,智普没有完成指令,扣子空间逻辑错误较多,纳米AI界面稍微好看一点,但内容质量较低,并没有给出太多有用信息。
Prompt:你是一个高级 WebGL 游戏开发者,请使用 Three.js 帮我开发一个“跑酷小游戏”类型的 3D 网页小游戏,并返回完整可运行的 HTML+JavaScript 代码。
生成结果:
1)扣子空间:
完成了游戏的开发,可以使用,基本满足预期
2)智普沉思Auto GLM:
说明:只给出规则文档,和运行代码,并未给出能够运行的文件,感觉跟普通大模型没区别,不太像个agent
3)纳米AI:
说明:完成了游戏的开发,可以使用,基本满足预期
整体说明:三个产品中只有智普沉思Auto GLM没有生成网页形式的小游戏,只是给了代码,其余两个agnet都基本满足预期了
3、目的:查询资料能力
prompt:你是一个专业的健康与健身内容编辑,请为我搜集并整合一份完整的“30天减肥计划”图文资料,适合普通人居家参考。请结合权威健康信息和流行趋势,返回为结构化的图文形式并用pdf形式输出。
1)扣子空间:
说明:基本符合要求,但没有图片,只有文字,最后生成了pdf格式的文档
2)智普沉思Auto GLM:
说明:也是基本符合要求,没有生成图片,最后给出了pdf格式的文档
3)纳米AI:
说明,基本符合要求,有目标、饮食、运动、计划,有示意图也生成了pdf格式
整体说明:三个产品中只有纳米AI有图文表达,其余两个产品都是文字形式的pdf
在本次评测中,我们从网页生成能力、生成游戏能力、查询总结资料能力等维度,深入对比了智普沉思 Auto GLM、扣子空间与纳米AI三款代表性的智能体产品。由此看出,他们也是各自有不同的优势,但也不难看出,还有一些问题需要改进,随着大模型与 Agent 技术不断演进,我们有理由相信,不同类型的智能体将根据用户需求各自生长,并最终走向融合。选择哪一类平台,并不在于谁更强,而在于你的任务场景真正需要什么。
来源:人人都是产品经理