国产Agent 评测:智普沉思Auto GLM、扣子空间、纳米AI

360影视 欧美动漫 2025-05-30 11:09 3

摘要:随着人工智能技术的不断发展,Agent(智能体)作为能够自主决策和执行任务的系统,正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别,分析Agent的工作原理及其评测标准,并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、

随着人工智能技术的不断发展,Agent(智能体)作为能够自主决策和执行任务的系统,正在成为AI领域的热门研究方向。本文将深入探讨Agent与大模型的区别,分析Agent的工作原理及其评测标准,并对国内三款具有代表性的Agent产品——智普沉思Auto GLM、扣子空间和纳米AI进行深度评测。

一、什么是Agent

大家有没有过这样的疑惑:

“都已经有大模型了,为什么还要做Agent?大模型不是也能得到agent中得到的结果吗?

“Agent与大模型之间具体有什么区别呢?”

首先让我们先从定义上看看这两者有什么区别:

大模型是基于深度学习、拥有数十亿至数千亿参数的人工智能模型,能通过海量数据学习复杂模式,具备文本生成、逻辑推理等多任务处理能力,是当前 AI 领域的核心突破方向。

而AI Agent呢,他拥有llm这个大脑,且具备自主决策和行动能力的系统,它可以根据目标,自主地使用工具、调用 API、规划步骤、执行任务。他是让AI真正实现自主完成任务,代表人类去完成具体任务的AI

所以从上述来看,大模型只提供任务方法,具体行动还是需要人去做执行;而agent则可以独立做出决策、主动执行,帮助人类执行任务,从而直接得到想要结果,这样的一个人工智能系统。

Lilian Weng也提到说“ Agent是由大语言模型驱动的自主代理”具备三大核心能力— 规划、行动和记忆。

二、Agent工作原理及评测原理

1、Agent内部工作原理:

Agent 在 LLM 支持下,通过调用外部工具完成具体任务。它是构建智能 Agent 的基础机制之一。

在 LangChain 官方文档《How to migrate from legacy LangChain agents to LangGraph》一节中,通过 magic_function(3) 的示例,展示了语言模型(LLM)如何调用外部工具的完整流程,包括工具的定义、与模型的绑定、工具调用的生成与执行,以及最终结果的返回。

在 LangChain 框架中,通过结构化的方式将外部函数集成到 LLM 的推理过程中,从而增强模型的功能和灵活性。它是理解 LangChain Agent 与工具交互机制的关键示意图之一。

这张图展示了AI Agent 调用机制以及他的原理,语言模型(LLM)如何通过绑定的外部工具,实现对用户指令的理解与执行。当用户以自然语言提出问题时,LLM 将其解析为结构化的工具调用请求,并根据工具定义发起调用,获取结果后再生成最终回答。这一过程体现了 Agent 具备“理解 → 决策 → 行动 → 回答”的能力,是其完成复杂任务的基础机制。

2、Agent评测原理

在评测 Agent 时,对他的工具调用决策与行为的评估逻辑是:当 Agent 接收到用户问题后,语言模型需要判断是否使用工具,并做出相应的调用。如果调用工具,则进入工具执行阶段,并基于结果继续推理;否则直接回答。评测过程不仅关注最终的回答是否接近参考答案(蓝色箭头),还关注模型是否按预期正确地调用了工具(红色箭头)以及调用顺序是否合理(橙色箭头)。这体现了对 Agent 的行为路径最终输出的双重评估标准。

图中通过一个工具调用agent(tool-calling agent)的示例,展示了语言模型(LLM)如何判断是否调用工具、如何执行工具调用,以及如何返回最终结果的完整流程。

3、Agent 的核心构成

通常,一个 Agent 包含以下几个部分:

感知(Perception):从环境中获取信息,比如读取传感器、接收用户输入、获取API数据等。示例:一个客服Agent从用户输入里提取问题意图。决策(Reasoning / Planning):基于感知到的信息,判断当前情况,并决定下一步要做什么。可能用到规则系统、机器学习、强化学习、逻辑推理等技术。执行(Action):执行决策的动作,比如调用API、发送消息、控制机器人动作等。目标(Goal)或任务系统(Task):Agent通常有一个明确的目标,比如完成订单、回答问题、规划路径等。

反馈与学习(可选):一些高级Agent具有自我反馈机制,比如通过强化学习不断优化行为策略。

三、评测维度

测评 Agent(智能体)的过程,本质上是评估它是否 高效、准确、稳定地完成任务目标,通常包括以下几个维度:

以及主要看任务完成度与流程正确性:

例如你训练了一个能够帮用户“查询天气并写日报”的 Agent,可以如下测评:

输入任务: “今天北京天气如何?请写一段日报总结。”

评估点:

-是否正确使用了天气 API 工具?

-是否写出了结构完整、内容合理的日报?

-是否在遇到API失效时能优雅降级?

-总共调用了几步?是否冗余?

也可以设计一组标准任务 + 一组边界/干扰任务,自动对输出结果进行判分或人工审阅。

以及评测Agent的最终结果、单个步骤、轨迹

评测其在任务上的整体表现。将Agent视为黑盒,并简单地评测其是否完成了工作。评测Agent的单个步骤–即LLM是否正确调用某个工具,以及传入正确参数。四、国内三款Agent产品

1. 字节跳动 Coze(扣子空间)

链接地址:https://www.coze.cn/space-preview?

定位:字节跳动 2025 年 4 月推出的 AI 协同办公平台,主打低代码开发与企业级场景。

核心能力:

三个模式任务执行:探索模式(快速任务)、规划模式(复杂任务)自由模式,支持动态子任务拆解与工具调用(如浏览器、代码编辑器)。专家 Agent 生态:引入华泰 A 股观察助手、用户研究专家等领域专家,提供行业深度服务。多模态集成:支持飞书多维表格、高德地图等 MCP 扩展,输出 PPT、飞书文档等结构化报告。优势:操作界面最友好,插件商店、工作流商店生态完善,适合非技术人员快速上手。

2. 智普沉思Auto GLM

链接地址:https://autoglm-research.zhipuai.cn/

定位:依托智谱 GLM 大模型的垂直领域 Agent 平台,聚焦科研、法律等场景。

核心能力:

学术知识库:内置 2000 万篇论文、专利数据,支持学术文献自动综述与分析。多模态交互:支持 PDF 解析、公式识别,输出 LaTeX 格式文档。

优势:学术领域精度高,适合高校、科研机构。

3、纳米AI Agent

链接地址:https://bot.n.cn/tools/aiagent

定位:纳米 AI Agent是 360 集团推出的 AI Agent 平台,其核心产品为MCP 万能工具箱,主打 “零代码构建智能体” 与 “开放工具生态” 两大特性,在技术架构、应用场景和行业适配性上展现出显著差异化优势。以下从技术特性、应用场景、行业影响三个维度展开分析

核心能力:

5 分钟快速搭建:通过可视化操作界面,用户可自由组合 360 自研工具(如 360 搜索、浏览器自动化)和第三方工具(如 ArXiv 学术搜索、小红书数据抓取),系统自动生成任务流。行业模板库:内置 200 + 行业模板(如金融风控、HR 招聘、电商运营),支持一键复用。例如,选择 “股票分析助手” 模板,智能体自动调用同花顺 API 抓取数据→生成 K 线图→输出风险预警。110 + 即用工具:覆盖办公协作、学术研究、金融分析、生活服务等场景,工具接入无需代码。例如,用户输入 “分析 2025 年上海车展趋势”,智能体可自动调用高德地图生成展馆路线图→调用爬虫工具抓取媒体报道→调用数据可视化工具生成新能源车对比图表。开发者生态:支持用户自定义工具接入,开发者可通过简单配置将本地工具(如 Obsidian 笔记检索)转化为 MCP 工具,形成 “千人千面” 的智能体生态。五、深度测评Agent

1、目的:生成网页能力

prompt:你是一个经验丰富的旅行规划师和前端开发者,请为我生成一个5天4晚的大理旅游计划,并以简洁美观的HTML网页形式输出。

生成结果:

1)扣子空间

说明:1)逻辑问题严重,比如酒店离古城走路需要7个小时,但攻略建议,“稍作休息后,漫步古城”,这太不符合常识,而且配图是喜洲古镇,并不是大理古城,还有三塔倒影公园也离酒店距离很远,并不是一天就能逛完的,所以逻辑问题严重;2)任务完成较快,但并未全部完成要求,生成网页排版,而且内容过于简单,并不能作为旅游攻略使用。

2)智普沉思Auto GLM:

说明:

1)只是给了一个可以下载的pdf文档,并未遵循最后的指令生成html网页链接;

2)确实能看到他自动打开了新的网页在浏览小红书等攻略的内容;

3)海东海西游玩顺序有逻辑错误

3)纳米AI:

说明:

1)完成了html的输出,耗费时间较长20分钟左右;

2)整个ui做的相比比较美观,但只是网页展示,并没有交互,地图也没有展示出来。

3)生成内容上,给的攻略过于笼统,大理最美的洱海周围景点并没有突出展示,景区介绍过多,对于游玩,用处较小。

整体说明:三个产品其实都没有很好的回答,智普没有完成指令,扣子空间逻辑错误较多,纳米AI界面稍微好看一点,但内容质量较低,并没有给出太多有用信息。

Prompt:你是一个高级 WebGL 游戏开发者,请使用 Three.js 帮我开发一个“跑酷小游戏”类型的 3D 网页小游戏,并返回完整可运行的 HTML+JavaScript 代码。

生成结果:

1)扣子空间:

完成了游戏的开发,可以使用,基本满足预期

2)智普沉思Auto GLM:

说明:只给出规则文档,和运行代码,并未给出能够运行的文件,感觉跟普通大模型没区别,不太像个agent

3)纳米AI:

说明:完成了游戏的开发,可以使用,基本满足预期

整体说明:三个产品中只有智普沉思Auto GLM没有生成网页形式的小游戏,只是给了代码,其余两个agnet都基本满足预期了

3、目的:查询资料能力

prompt:你是一个专业的健康与健身内容编辑,请为我搜集并整合一份完整的“30天减肥计划”图文资料,适合普通人居家参考。请结合权威健康信息和流行趋势,返回为结构化的图文形式并用pdf形式输出。

1)扣子空间:

说明:基本符合要求,但没有图片,只有文字,最后生成了pdf格式的文档

2)智普沉思Auto GLM:

说明:也是基本符合要求,没有生成图片,最后给出了pdf格式的文档

3)纳米AI:

说明,基本符合要求,有目标、饮食、运动、计划,有示意图也生成了pdf格式

整体说明:三个产品中只有纳米AI有图文表达,其余两个产品都是文字形式的pdf

六、总结

在本次评测中,我们从网页生成能力、生成游戏能力、查询总结资料能力等维度,深入对比了智普沉思 Auto GLM、扣子空间与纳米AI三款代表性的智能体产品。由此看出,他们也是各自有不同的优势,但也不难看出,还有一些问题需要改进,随着大模型与 Agent 技术不断演进,我们有理由相信,不同类型的智能体将根据用户需求各自生长,并最终走向融合。选择哪一类平台,并不在于谁更强,而在于你的任务场景真正需要什么。

来源:人人都是产品经理

相关推荐