国产Agent 评测：智普沉思Auto GLM、扣子空间、纳米AI

摘要：随着人工智能技术的不断发展，Agent（智能体）作为能够自主决策和执行任务的系统，正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别，分析Agent的工作原理及其评测标准，并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、

随着人工智能技术的不断发展，Agent（智能体）作为能够自主决策和执行任务的系统，正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别，分析Agent的工作原理及其评测标准，并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、扣子空间和纳米AI进行深度评测。

一、什么是Agent

大家有没有过这样的疑惑：

“都已经有大模型了，为什么还要做Agent？大模型不是也能得到agent中得到的结果吗？

“Agent与大模型之间具体有什么区别呢？”

首先让我们先从定义上看看这两者有什么区别：

大模型是基于深度学习、拥有数十亿至数千亿参数的人工智能模型，能通过海量数据学习复杂模式，具备文本生成、逻辑推理等多任务处理能力，是当前 AI 领域的核心突破方向。

而AI Agent呢，他拥有llm这个大脑，且具备自主决策和行动能力的系统，它可以根据目标，自主地使用工具、调用 API、规划步骤、执行任务。他是让AI真正实现自主完成任务，代表人类去完成具体任务的AI

所以从上述来看，大模型只提供任务方法，具体行动还是需要人去做执行；而agent则可以独立做出决策、主动执行，帮助人类执行任务，从而直接得到想要结果，这样的一个人工智能系统。

Lilian Weng也提到说“ Agent是由大语言模型驱动的自主代理”具备三大核心能力— 规划、行动和记忆。

二、Agent工作原理及评测原理

1、Agent内部工作原理：

Agent 在 LLM 支持下，通过调用外部工具完成具体任务。它是构建智能 Agent 的基础机制之一。

在 LangChain 官方文档《How to migrate from legacy LangChain agents to LangGraph》一节中，通过 magic_function(3) 的示例，展示了语言模型（LLM）如何调用外部工具的完整流程，包括工具的定义、与模型的绑定、工具调用的生成与执行，以及最终结果的返回。

在 LangChain 框架中，通过结构化的方式将外部函数集成到 LLM 的推理过程中，从而增强模型的功能和灵活性。它是理解 LangChain Agent 与工具交互机制的关键示意图之一。

这张图展示了AI Agent 调用机制以及他的原理，语言模型（LLM）如何通过绑定的外部工具，实现对用户指令的理解与执行。当用户以自然语言提出问题时，LLM 将其解析为结构化的工具调用请求，并根据工具定义发起调用，获取结果后再生成最终回答。这一过程体现了 Agent 具备“理解 → 决策 → 行动 → 回答”的能力，是其完成复杂任务的基础机制。

2、Agent评测原理

在评测 Agent 时，对他的工具调用决策与行为的评估逻辑是：当 Agent 接收到用户问题后，语言模型需要判断是否使用工具，并做出相应的调用。如果调用工具，则进入工具执行阶段，并基于结果继续推理；否则直接回答。评测过程不仅关注最终的回答是否接近参考答案（蓝色箭头），还关注模型是否按预期正确地调用了工具（红色箭头）以及调用顺序是否合理（橙色箭头）。这体现了对 Agent 的行为路径和最终输出的双重评估标准。

图中通过一个工具调用agent（tool-calling agent）的示例，展示了语言模型（LLM）如何判断是否调用工具、如何执行工具调用，以及如何返回最终结果的完整流程。

3、Agent 的核心构成

通常，一个 Agent 包含以下几个部分：

感知（Perception）：从环境中获取信息，比如读取传感器、接收用户输入、获取API数据等。示例：一个客服Agent从用户输入里提取问题意图。决策（Reasoning / Planning）：基于感知到的信息，判断当前情况，并决定下一步要做什么。可能用到规则系统、机器学习、强化学习、逻辑推理等技术。执行（Action）：执行决策的动作，比如调用API、发送消息、控制机器人动作等。目标（Goal）或任务系统（Task）：Agent通常有一个明确的目标，比如完成订单、回答问题、规划路径等。

反馈与学习（可选）：一些高级Agent具有自我反馈机制，比如通过强化学习不断优化行为策略。

三、评测维度

测评 Agent（智能体）的过程，本质上是评估它是否 高效、准确、稳定地完成任务目标，通常包括以下几个维度：

以及主要看任务完成度与流程正确性：

例如你训练了一个能够帮用户“查询天气并写日报”的 Agent，可以如下测评：

输入任务： “今天北京天气如何？请写一段日报总结。”

评估点：

-是否正确使用了天气 API 工具？

-是否写出了结构完整、内容合理的日报？

-是否在遇到API失效时能优雅降级？

-总共调用了几步？是否冗余？

也可以设计一组标准任务 + 一组边界/干扰任务，自动对输出结果进行判分或人工审阅。

以及评测Agent的最终结果、单个步骤、轨迹

评测其在任务上的整体表现。将Agent视为黑盒，并简单地评测其是否完成了工作。评测Agent的单个步骤–即LLM是否正确调用某个工具，以及传入正确参数。四、国内三款Agent产品

1. 字节跳动 Coze（扣子空间）

链接地址：https://www.coze.cn/space-preview?

定位：字节跳动 2025 年 4 月推出的 AI 协同办公平台，主打低代码开发与企业级场景。

核心能力：

三个模式任务执行：探索模式（快速任务）、规划模式（复杂任务）自由模式，支持动态子任务拆解与工具调用（如浏览器、代码编辑器）。专家 Agent 生态：引入华泰 A 股观察助手、用户研究专家等领域专家，提供行业深度服务。多模态集成：支持飞书多维表格、高德地图等 MCP 扩展，输出 PPT、飞书文档等结构化报告。优势：操作界面最友好，插件商店、工作流商店生态完善，适合非技术人员快速上手。

2. 智普沉思Auto GLM

链接地址：https://autoglm-research.zhipuai.cn/

定位：依托智谱 GLM 大模型的垂直领域 Agent 平台，聚焦科研、法律等场景。

核心能力：

学术知识库：内置 2000 万篇论文、专利数据，支持学术文献自动综述与分析。多模态交互：支持 PDF 解析、公式识别，输出 LaTeX 格式文档。

优势：学术领域精度高，适合高校、科研机构。

3、纳米AI Agent

链接地址：https://bot.n.cn/tools/aiagent

定位：纳米 AI Agent是 360 集团推出的 AI Agent 平台，其核心产品为MCP 万能工具箱，主打 “零代码构建智能体” 与 “开放工具生态” 两大特性，在技术架构、应用场景和行业适配性上展现出显著差异化优势。以下从技术特性、应用场景、行业影响三个维度展开分析

核心能力：

5 分钟快速搭建：通过可视化操作界面，用户可自由组合 360 自研工具（如 360 搜索、浏览器自动化）和第三方工具（如 ArXiv 学术搜索、小红书数据抓取），系统自动生成任务流。行业模板库：内置 200 + 行业模板（如金融风控、HR 招聘、电商运营），支持一键复用。例如，选择 “股票分析助手” 模板，智能体自动调用同花顺 API 抓取数据→生成 K 线图→输出风险预警。110 + 即用工具：覆盖办公协作、学术研究、金融分析、生活服务等场景，工具接入无需代码。例如，用户输入 “分析 2025 年上海车展趋势”，智能体可自动调用高德地图生成展馆路线图→调用爬虫工具抓取媒体报道→调用数据可视化工具生成新能源车对比图表。开发者生态：支持用户自定义工具接入，开发者可通过简单配置将本地工具（如 Obsidian 笔记检索）转化为 MCP 工具，形成 “千人千面” 的智能体生态。五、深度测评Agent

1、目的：生成网页能力

prompt：你是一个经验丰富的旅行规划师和前端开发者，请为我生成一个5天4晚的大理旅游计划，并以简洁美观的HTML网页形式输出。

生成结果：

1）扣子空间

说明：1）逻辑问题严重，比如酒店离古城走路需要7个小时，但攻略建议，“稍作休息后，漫步古城”，这太不符合常识，而且配图是喜洲古镇，并不是大理古城，还有三塔倒影公园也离酒店距离很远，并不是一天就能逛完的，所以逻辑问题严重；2）任务完成较快，但并未全部完成要求，生成网页排版，而且内容过于简单，并不能作为旅游攻略使用。

2）智普沉思Auto GLM：

说明：

1）只是给了一个可以下载的pdf文档，并未遵循最后的指令生成html网页链接；

2）确实能看到他自动打开了新的网页在浏览小红书等攻略的内容；

3）海东海西游玩顺序有逻辑错误

3）纳米AI：

说明：

1）完成了html的输出，耗费时间较长20分钟左右；

2）整个ui做的相比比较美观，但只是网页展示，并没有交互，地图也没有展示出来。

3）生成内容上，给的攻略过于笼统，大理最美的洱海周围景点并没有突出展示，景区介绍过多，对于游玩，用处较小。

整体说明：三个产品其实都没有很好的回答，智普没有完成指令，扣子空间逻辑错误较多，纳米AI界面稍微好看一点，但内容质量较低，并没有给出太多有用信息。

Prompt：你是一个高级 WebGL 游戏开发者，请使用 Three.js 帮我开发一个“跑酷小游戏”类型的 3D 网页小游戏，并返回完整可运行的 HTML+JavaScript 代码。

生成结果：

1）扣子空间：

完成了游戏的开发，可以使用，基本满足预期

2）智普沉思Auto GLM：

说明：只给出规则文档，和运行代码，并未给出能够运行的文件，感觉跟普通大模型没区别，不太像个agent

3）纳米AI：

说明：完成了游戏的开发，可以使用，基本满足预期

整体说明：三个产品中只有智普沉思Auto GLM没有生成网页形式的小游戏，只是给了代码，其余两个agnet都基本满足预期了

3、目的：查询资料能力

prompt：你是一个专业的健康与健身内容编辑，请为我搜集并整合一份完整的“30天减肥计划”图文资料，适合普通人居家参考。请结合权威健康信息和流行趋势，返回为结构化的图文形式并用pdf形式输出。

1）扣子空间：

说明：基本符合要求，但没有图片，只有文字，最后生成了pdf格式的文档

2）智普沉思Auto GLM：

说明：也是基本符合要求，没有生成图片，最后给出了pdf格式的文档

3）纳米AI：

说明，基本符合要求，有目标、饮食、运动、计划，有示意图也生成了pdf格式

整体说明：三个产品中只有纳米AI有图文表达，其余两个产品都是文字形式的pdf

六、总结

在本次评测中，我们从网页生成能力、生成游戏能力、查询总结资料能力等维度，深入对比了智普沉思 Auto GLM、扣子空间与纳米AI三款代表性的智能体产品。由此看出，他们也是各自有不同的优势，但也不难看出，还有一些问题需要改进，随着大模型与 Agent 技术不断演进，我们有理由相信，不同类型的智能体将根据用户需求各自生长，并最终走向融合。选择哪一类平台，并不在于谁更强，而在于你的任务场景真正需要什么。

来源：人人都是产品经理

标签：评测 agent autoglm glm 沉思auto

本文地址：https://news.43u.com.cn/a/1855433.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!