深度长文|AI Agent协议暗战:谁将定义万亿智能协作的底层法则?

360影视 日韩动漫 2025-05-06 17:53 2

摘要:一股强大的浪潮正在席卷全球科技界——AI Agent。它们不再只是被动响应指令的工具,而是能够自主感知、规划、执行任务的智能体。从自动客服到金融风控,从医疗诊断到电商购物,Agent 的身影正日益活跃,重塑着我们的工作和生活方式。我们看到,在金融领域,摩根大通

一股强大的浪潮正在席卷全球科技界——AI Agent。它们不再只是被动响应指令的工具,而是能够自主感知、规划、执行任务的智能体。从自动客服到金融风控,从医疗诊断到电商购物,Agent 的身影正日益活跃,重塑着我们的工作和生活方式。我们看到,在金融领域,摩根大通(JPMorgan Chase)通过 AI Agent 实现了超 30% 的欺诈减少[1]富国银行(Wells Fargo)将贷款审批时间从数周缩短到数分钟[2]。在医疗健康领域,AI Agent 在肺结节检测中的准确率已超越放射科医生,甚至辅助发现了罕见的白血病[3]。电商巨头亚马逊更是计划推出能自主完成全流程购物的 Agent“Nova”[4],让购物便捷性大幅跃升。Agent 的崛起,预示着一个前所未有的智能协作时代正加速到来。

然而,在这股汹涌的智能体浪潮下,一个隐藏的“巴别塔”困境正日益凸显:Agent 们“鸡同鸭讲”,无法顺畅沟通。想象一下,一个负责预订机票的 Agent,需要与航空公司 Agent、支付 Agent、日历 Agent 乃至天气 Agent 协同工作,但它们可能来自不同公司、基于不同框架,使用着各自孤立的“语言”和接口。这种碎片化和不兼容,严重阻碍了 Agent 之间的协同效率和规模化应用,限制了它们解决更复杂现实问题的能力。2025 年 4 月 26 日发布在 arXiv 上的一篇综述论文《A Survey of AI Agent Protocols》[5]就明确指出:缺乏标准化的协议已成为 Agent 广泛部署和有效协作的关键瓶颈

这种困境,是否让你联想到互联网的早期?那时,网络被各种不兼容的系统割裂,不同的计算机网络之间难以通信。直到 TCP/IP 和 HTTP等标准化协议的出现,才如同一场“语言革命”,打破了藩篱,催生了全球互联的互联网,释放了前所未有的创新潜能和经济价值。今天,AI Agent 领域正站在类似的历史节点上。一场关于 Agent 通信标准的“协议暗战”已悄然打响,谁将定义 Agent 之间的“通用语言”,谁就可能掌握未来万亿级智能协作网络的底层法则。本文将深入这场暗战,透视其中的玩家、规则与未来格局。

AI Agent 协议,本质上就是定义 Agent 之间、以及 Agent 与外部工具、数据源如何进行结构化通信的标准化框架。与传统的 API 调用相比,协议更强调效率、更广的操作范围、更强的标准化以及与 AI 系统的原生兼容性。下表清晰对比了不同交互方式的特点:

场景

效率

操作范围

标准化

AI原生

API

服务器到服务器集成

✓✓

×

×

×

GUI

电脑/移动端使用

×

×

XML

浏览器使用

×

×

×

(表格来源: 改编自 arXiv:2504.16736v2, Table 1[6])

它是构建多 Agent 系统、实现 Agent 互操作性和可扩展性的基石。我们可以参考《A Survey of AI Agent Protocols》论文中首次提出的系统性分类框架,从两个维度来理解当前的协议格局:一是对象导向(面向上下文 vs. Agent 间),二是应用场景(通用 vs. 领域特定)。

AI Agent 协议分类图

(图片来源: arXiv:2504.16736v2, Figure 3[7])

在这场协议的争夺战中,主要有两大阵营:以大型科技公司为代表的“大厂玩家”,以及以开源社区为核心的“开放力量”

大厂的生态壁垒与协议野心

大型科技公司凭借其在基础模型、云计算平台和现有生态中的优势,正积极推出自己的 Agent 协议,意图在下一代智能基础设施中占据核心地位。

Anthropic 的 MCP:Agent 的“外部大脑连接器”

Anthropic 推出的模型上下文协议 (Model Context Protocol, MCP)[8]是连接 LLM Agent 与外部资源(数据、工具、服务)的先驱协议。它的核心目标是标准化 Agent 获取上下文信息的方式,解决不同模型和工具接口碎片化的问题。MCP 采用客户端-服务端架构,Agent 作为 Host,通过 Client 向 Server 发起上下文请求,Server 则从 Resource 获取信息返回。这种设计将工具调用与 LLM 响应解耦,有助于提升隐私安全性,因为敏感的用户数据可以在本地客户端进行授权和处理,无需上传至云端 LLM。Anthropic 将 MCP 定位为开放标准,希望通过社区协作和广泛采用来建立影响力,这是一种“模型驱动”(Model-centric)的战略,旨在通过控制核心协议来影响整个 Agent 生态,巩固其在模型层面的领导地位。值得注意的是,Google 也计划将 MCP 集成到 Gemini 模型[9],显示了其跨公司合作的潜力。

(图例:简化的 MCP 工作流程,展示了 Host, Client, Server, Resource 之间的交互)

Google 的 A2A:企业级协作的“连接器”

与 MCP 侧重 Agent 与资源的交互不同,Google 的 Agent2Agent (A2A) 协议[10]更专注于不同 Agent 之间的直接通信与协作。A2A 的设计原则强调“企业级就绪”(Enterprise Readiness),关注集成、安全和治理。它复用现有标准(如 HTTP/S, JSON-RPC 2.0),并引入 Agent Card、Task、Artifact 等概念来描述 Agent 能力和协作流程。A2A 支持异步长流程任务管理和多模态数据交换,非常适合企业内部或跨企业间复杂 Agent 协作场景。Google 在 A2A 的推广中,积极联合Atlassian 等企业伙伴共同制定标准[11],并将其集成到 Google Cloud 平台,这是一种“企业驱动”(Enterprise-focused)的策略,旨在通过满足企业客户对安全、可信赖协作的需求来扩大影响力。

大厂协议的优势在于资源丰富、生态整合能力强、能提供企业级支持。然而,潜在的风险在于可能形成新的“围墙花园”,限制创新和互操作性,加剧市场集中。

开源社区的开放旗帜与互联愿景

与大厂的自上而下不同,开源社区倡导开放、去中心化的理念,致力于构建不依赖特定巨头、真正互联互通的 Agent 网络。

ANP:Agent 互联网的理想主义者

Agent Network Protocol (ANP)[12]是一个由开源社区推动的协议,其愿景是构建一个开放、安全、高效的数十亿 Agent 协作网络,如同“Agent 时代的 HTTP”。ANP 的核心原则包括互联互通、原生接口和高效协作。它采用三层架构:底层基于W3C DID(去中心化身份)[13]实现无需信任的身份认证和加密通信;中间层是元协议层,支持 Agent 间动态协商通信协议;上层是应用协议层,定义 Agent 发现、能力描述和任务执行标准。ANP 的去中心化设计和开放性,使其有望打破不同平台和供应商的壁垒,但面临安全与合规资源缺口、技术碎片化、缺乏企业级支持等挑战。尽管如此,ANP 已在一些开源项目和社区实验中实现跨平台 Agent 通信,展现了其潜力。

Agora:解决通信三难的元协议

由牛津大学等机构提出的 Agora 协议[14],则从另一个角度切入 Agent 通信难题。他们发现,在异构 LLM Agent 网络中存在一个“通信三难困境”:Versatility(通用性)、Efficiency(效率)和 Portability(可移植性)难以兼顾。Agora 利用 LLM 理解自然语言和生成代码的能力,允许 Agent动态协商和调整通信协议。对于高频通信,使用高效的结构化协议;对于低频或异常情况,退回到自然语言协商。Agora 引入 Protocol Documents (PDs) 来描述协议,使 Agent 能够在无人干预下理解、实现、甚至创建新协议。牛津大学与 Eigent AI 团队通过 Agora 协议成功实现了100 个 AI Agent 的跨平台自治协作[15],证明了其在大规模网络中的可扩展性和自组织能力。

开源协议的优势在于开放性、灵活性和创新速度,有助于避免供应商锁定和促进普惠智能。但它们在安全保障、生态建设和商业落地方面仍面临不小的挑战。

领域深耕者:特定场景下的协议创新

除了通用协议,针对人机交互、机器人协作、物联网等特定领域,也涌现出满足特定需求的协议,如用于网站信息获取的 agents.json[16],用于物联网与 Agent 集成的LMOS (Language Model Operating System)[17],以及专注于人机可解释交互的 PXP (Predict and eXplain Protocol) 等。这些协议在各自的细分领域推动着 Agent 应用的深化。

案例实战:一次旅行规划揭示的协议差异

理论分析略显枯燥,让我们通过一个具象的例子——规划一次“北京到纽约的五日游”——来看看不同协议在实际任务协作中的运作差异。

不同协议在旅行规划案例中的架构对比

(图片来源: arXiv:2504.16736v2, Figure 4[18])

MCP:单 Agent 的“中央调度”模式

在 MCP 模式下,一个主 Agent(比如旅行规划 Agent)承担“中央调度”的角色。它需要理解用户的复杂需求,然后自主决定调用哪些外部“工具”Agent(如订机票工具、订酒店工具、查天气工具)。它向这些工具 Agent 发送标准化的上下文请求(比如“查询 5 月 5 日北京到纽约的机票”),工具 Agent 返回结构化数据,主 Agent 再将这些数据整合,生成最终的旅行计划。这种模式清晰高效,但主 Agent 需要了解所有工具的能力和接口,且所有信息流都经过中心点,可能存在瓶颈。

A2A:Agent 间的“同事协作”模式

在 A2A 模式下,任务被分解并分配给不同的专业 Agent(如机票 Agent、酒店 Agent、天气 Agent)。旅行规划 Agent 更像一个项目经理,它将任务分解并委派给这些“同事”。这些专业 Agent 之间可以直接沟通协作,比如机票 Agent 需要天气 Agent 的信息来判断航班是否会受影响,它们可以直接通过 A2A 协议进行消息和数据交换,而无需事事汇报给旅行规划 Agent。这种模式更灵活、分布式,适合企业内部 Agent 系统的构建。

ANP:跨领域 Agent 的“标准协商”模式

ANP 则描绘了一个更开放的场景。机票 Agent 可能属于某航空公司,酒店 Agent 属于某个酒店预订平台,天气 Agent 属于气象服务提供商。它们分属不同的组织和领域。ANP 协议允许这些跨领域的 Agent 通过标准化的流程相互发现、认证身份(基于 DID),并协商通信协议。机票 Agent 需要天气 Agent 的数据时,它不是直接调用一个工具,而是通过 ANP 找到对应的天气 Agent,验证其身份,然后按照协商好的协议进行信息交换。这种模式旨在实现跨组织、跨平台的 Agent 互联互通。

Agora:自然语言驱动的“智能翻译”模式

Agora 则在用户与 Agent 之间增加了一个智能层。用户用自然语言表达需求(“帮我规划一个北京到纽约五日游”),Agora 层利用 LLM 理解用户意图,并将其转化为不同 Agent 能理解的标准化协议指令,分发给机票、酒店、天气等 Agent。这些 Agent 只需响应标准协议,无需直接处理复杂的自然语言。这种模式通过智能层屏蔽了自然语言的复杂性,让领域 Agent 更聚焦,同时也支持 Agent 动态生成和适应协议。

通过这些案例,我们可以看到不同协议的设计哲学和适用场景差异巨大。它们各自代表着解决 Agent 协作“语言障碍”的不同尝试,也构成了当前“协议暗战”的具体战场。

要衡量一个 Agent 协议的优劣,不能只看其功能是否全面,还需要一套多维度的评估体系。借鉴互联网协议的成功经验,并结合 Agent 的独特属性,我们可以从以下七个维度来考察:

不只是快和稳:Agent 协议的“七宗罪”与“七美德”

《A Survey of AI Agent Protocols》论文在其评估部分(Section 4)提出,我们可以从以下七个维度来评估 Agent 协议,下表进行了简化总结:

评估维度

核心关注点

效率

通信速度快、资源消耗低

可扩展性

支持 Agent/连接数量增长,动态适应网络变化

安全性

身份可信、数据保密、行为可控

可靠性

信息传输准确、完整、及时,具备容错能力

可扩展性 (Extensibility)

适应未来功能演进,保持向后兼容

可操作性

易于开发、部署、管理和维护

互操作性

支持不同 Agent/平台/框架间的无缝通信与协作

(表格来源: 改编自 arXiv:2504.16736v2, Table 4[19])

效率:协议通信的速度和资源消耗。Agent 间频繁的交互需要低延迟和高吞吐量。例如,有研究指出MCP 通过 HTTP Streaming 将延迟降低至传统 RPC 的 1/3[20]

可扩展性:协议能否支持 Agent 数量和连接的指数级增长。Agent 网络的规模可能达到数百万甚至数十亿,这对协议管理节点和连接的能力提出了极高要求。需要关注节点可扩展性、连接可扩展性和能力协商效率。

安全性:协议如何保障 Agent 身份可信、数据不被泄露、行为不被恶意操纵。Agent 的自主性意味着一旦安全被攻破,后果可能更严重。需要考察认证模式多样性、权限控制粒度、上下文脱敏机制等。

可靠性:协议能否确保信息准确、完整、及时地送达。Agent 决策依赖于接收到的信息,不可靠的通信可能导致 Agent 行为失误。

可扩展性(Extensibility):协议能否灵活适应新功能和技术发展,并保持向后兼容。AI 技术日新月异,协议需要预留未来演进的空间。

可操作性:协议的易用性,包括开发、部署、管理和维护的复杂程度。

互操作性:不同 Agent、不同平台、不同框架能否通过协议无缝通信和协作。这是打破“巴别塔”困境的核心。

深入解析:Agent 协议的关键评估指标

这些维度并非停留在概念层面,论文和补充信息提供了一些量化指标来衡量协议的“战斗力”:

安全性:认证方式多样性(支持 OAuth, DID 等)、权限控制粒度(能否细化到字段或任务级别)、上下文脱敏机制(是否支持数据屏蔽或匿名化)直接关系到 Agent 处理敏感数据的安全性。补充信息指出,当前 Agent 面临提示注入、工具滥用、身份伪造等多种新型攻击向量[21],这要求协议必须内置强大的安全防御机制。

可扩展性:节点可扩展性(每秒能支持多少新 Agent 加入/退出)、连接可扩展性(每秒能建立多少新连接)、能力协商成功率(CNS)等指标,反映了协议应对 Agent 网络指数级增长的能力。

互操作性:Schema 兼容性测试通过率(SCTPR)是衡量不同 Agent 间“语言”兼容性的重要指标。开放标准联盟如AGNTCY 正是致力于提升跨平台 Agent 的互操作性[22]

效率与可靠性:延迟、吞吐量、自动重试次数(ARC)、意外断开率(UDR)、消息丢失率(MLR)等,都是衡量协议性能和稳定性的传统网络指标,在 Agent 语境下有了新的重要性。补充信息中的基准测试(如Aisera 的 CLASSic[23])显示,采用 MCP 的领域专用 Agent 在特定任务中能实现低延迟和高准确率。

这些评估维度和指标,为我们理解不同协议的优劣和适用场景提供了科学依据。然而,没有完美的协议,协议设计是一个不断权衡的过程。

协议演进的启示:在实战中寻找最优解的权衡艺术

协议的发展并非一蹴而就,而是在实践中不断迭代和演进的过程。从 MCP 自身的版本更新,到 MCP、ANP、A2A 等不同协议的共存与发展,都体现了这种权衡的艺术。

论文提到,MCP 从 v1.0 迭代到 v1.2,增加了对 HTTP Streaming 和认证机制的支持。这提升了协议的互操作性和安全性,但也可能引入新的性能考量。MCP 到 ANP 和 A2A 的演进,则代表了从连接资源到 Agent 间协作的范式转变,带来了可扩展性和灵活性的提升,但也引入了去中心化身份管理、复杂任务协调等新的挑战。

这些演进案例告诉我们,选择和设计 Agent 协议需要结合具体的应用场景进行权衡。例如,在对安全性要求极高的金融领域,可能更侧重协议的认证、权限控制和脱敏机制;而在需要大量 Agent 动态协作的场景,则更看重可扩展性和互操作性。未来的协议发展,也将是这些维度之间不断博弈和优化的过程。

Agent 协议的发展正以前所未有的速度向前推进,其未来图景充满想象空间。

短期演进:让 Agent 协议更“聪明”更“安全”

在短期内,我们可以预见协议将变得更加动态和智能。未来的协议可能不再是静态规范,而是具备学习和适应能力,能根据上下文和协作 Agent 的特点动态调整通信策略(可演进协议)。隐私保护和安全性将成为协议设计的标配,借鉴差分隐私、联邦学习等技术,让 Agent 在协作时最小化敏感数据暴露(隐私保护协议)。同时,Agent 间的协作模式也将从点对点走向更自然的群组模式,Agent Mesh 协议有望出现,让 Agent 像人类一样在共享的“群聊”环境中高效协作。

中期变革:架构重塑与 Agent “母语”化

中期来看,Agent 协议的架构将发生深刻变革。借鉴传统网络协议的分层思想,未来的协议可能形成分层架构,将底层传输与上层语义、任务协调解耦,提升模块性和灵活性。更具颠覆性的是,Agent 所基于的 LLM 模型本身可能内置协议知识,Agent 无需外部指令就能“理解”和遵循协议,实现更高效、无缝的交互(协议知识内置),尽管这可能带来模型更新和协议演进的挑战。

长期愿景:Agent 数据网络与集体智能的涌现

从长远来看,Agent 协议有望催生一个全新的智能基础设施——Agent 数据网络(ADN)。这将是一个专为 Agent 间数据交换和协调而优化的网络层,支持 Agent 状态同步、长期规划和异步协作,而无需人类介入。在这个网络之上,通过协议连接的 Agent 群体将超越个体能力,涌现出解决复杂难题的集体智能。这不仅仅是技术的进步,更是智能形态的演化,预示着一个由协议连接、数据流动、智能体协同工作的新世界,如同互联网带来的社会变革一样深刻。一些实验项目正探索基于区块链的去中心化 Agent 数据市场[24]分布式模型训练基础设施[25],为构建这样的未来奠定基础。

Agent 协议之争,不仅是技术路线的选择,更是关于未来 Agent 生态主导权的博弈。

总结:协议是解锁 Agent 潜力的关键钥匙

标准化、安全、开放的 Agent 协议,是打破当前 Agent 协作困境、释放 Agent 集体智能潜力的关键。它定义了未来智能体世界的沟通规则,决定了 Agent 生态的繁荣程度和发展速度。

开放 vs. 封闭:一场关乎未来的生态主导权博弈

这场“协议暗战”的核心,在于未来的 Agent 生态是走向由少数巨头控制的“围墙花园”,还是演变为一个开放互联、百花齐放的智能协作网络。

大厂凭借其资源和生态优势,有能力快速推动自家协议成为事实标准,提供集成度高、性能稳定的解决方案。但这可能导致供应商锁定,限制第三方创新,并引发数据垄断和隐私担忧[26]

开源社区倡导的开放协议,虽然在落地和生态建设上面临挑战,但其去中心化、透明和灵活的特性,更有利于激发广泛创新,避免垄断,促进普惠智能。历史上,开放标准(如 TCP/IP)最终往往能战胜封闭标准,构建更具生命力的生态。但历史也告诉我们,单纯的技术开放不足以赢得标准战争,还需要战略性地构建开发者生态、商业支持和跨企业联盟。这一点,在Fast Company 的一篇文章[27]中也得到了分析。Google A2A 作为开放标准的尝试[28],以及AGNTCY 联盟的成立[29],都显示出行业正朝着开放互操作的方向努力。

协议的未来,需要我们共同书写与守护

Agent 协议的设计和演进,不仅仅是工程师和研究人员的任务,它关乎到未来 AI 如何与人类互动、如何影响社会。隐私保护、行为可控、责任追溯等伦理和治理问题,都需要在协议层面得到充分考虑。

正如互联网协议塑造了数字时代的面貌,Agent 协议也将定义未来的智能时代。这场“协议暗战”的结果,将深刻影响 AI 创新的路径、市场竞争的格局,以及我们每个人如何与智能体共存。推动构建一个开放、安全、普惠、负责任的 Agent 互联生态,需要所有参与者的共同努力和审慎思考。

未来的智能世界,正等待着它自己的“通用语言”。这场协议之战,我们每个人都应关注。

参考资料

[1]

摩根大通(JPMorgan Chase)通过 AI Agent 实现了超 30% 的欺诈减少:

[2]

富国银行(Wells Fargo)将贷款审批时间从数周缩短到数分钟:

[3]

辅助发现了罕见的白血病:

[4]

“Nova”:

[5]

《A Survey of AI Agent Protocols》:

[6]

arXiv:2504.16736v2, Table 1:

[7]

arXiv:2504.16736v2, Figure 3:

[8]

Anthropic 推出的模型上下文协议 (Model Context Protocol, MCP):

[9]

Google 也计划将 MCP 集成到 Gemini 模型:

[10]

Google 的 Agent2Agent (A2A) 协议:

[11]

Atlassian 等企业伙伴共同制定标准:

[12]

Agent Network Protocol (ANP):

[13]

W3C DID(去中心化身份):

[14]

Agora 协议:

[15]

100 个 AI Agent 的跨平台自治协作:

[16]

agents.json:

[17]

LMOS (Language Model Operating System):

[18]

arXiv:2504.16736v2, Figure 4:

[19]

arXiv:2504.16736v2, Table 4:

[20]

MCP 通过 HTTP Streaming 将延迟降低至传统 RPC 的 1/3:

[21]

提示注入、工具滥用、身份伪造等多种新型攻击向量:

[22]

AGNTCY 正是致力于提升跨平台 Agent 的互操作性:

[23]

Aisera 的 CLASSic:

[24]

去中心化 Agent 数据市场:

[25]

分布式模型训练基础设施:

[26]

供应商锁定,限制第三方创新,并引发数据垄断和隐私担忧:

[27]

Fast Company 的一篇文章:

[28]

Google A2A 作为开放标准的尝试:

[29]

AGNTCY 联盟的成立:

来源:人工智能学家

相关推荐