深度长文｜AI Agent协议暗战：谁将定义万亿智能协作的底层法则？

摘要：一股强大的浪潮正在席卷全球科技界——AI Agent。它们不再只是被动响应指令的工具，而是能够自主感知、规划、执行任务的智能体。从自动客服到金融风控，从医疗诊断到电商购物，Agent 的身影正日益活跃，重塑着我们的工作和生活方式。我们看到，在金融领域，摩根大通

一股强大的浪潮正在席卷全球科技界——AI Agent。它们不再只是被动响应指令的工具，而是能够自主感知、规划、执行任务的智能体。从自动客服到金融风控，从医疗诊断到电商购物，Agent 的身影正日益活跃，重塑着我们的工作和生活方式。我们看到，在金融领域，摩根大通（JPMorgan Chase）通过 AI Agent 实现了超 30% 的欺诈减少[1]，富国银行（Wells Fargo）将贷款审批时间从数周缩短到数分钟[2]。在医疗健康领域，AI Agent 在肺结节检测中的准确率已超越放射科医生，甚至辅助发现了罕见的白血病[3]。电商巨头亚马逊更是计划推出能自主完成全流程购物的 Agent“Nova”[4]，让购物便捷性大幅跃升。Agent 的崛起，预示着一个前所未有的智能协作时代正加速到来。

然而，在这股汹涌的智能体浪潮下，一个隐藏的“巴别塔”困境正日益凸显：Agent 们“鸡同鸭讲”，无法顺畅沟通。想象一下，一个负责预订机票的 Agent，需要与航空公司 Agent、支付 Agent、日历 Agent 乃至天气 Agent 协同工作，但它们可能来自不同公司、基于不同框架，使用着各自孤立的“语言”和接口。这种碎片化和不兼容，严重阻碍了 Agent 之间的协同效率和规模化应用，限制了它们解决更复杂现实问题的能力。2025 年 4 月 26 日发布在 arXiv 上的一篇综述论文《A Survey of AI Agent Protocols》[5]就明确指出：缺乏标准化的协议已成为 Agent 广泛部署和有效协作的关键瓶颈。

这种困境，是否让你联想到互联网的早期？那时，网络被各种不兼容的系统割裂，不同的计算机网络之间难以通信。直到 TCP/IP 和 HTTP等标准化协议的出现，才如同一场“语言革命”，打破了藩篱，催生了全球互联的互联网，释放了前所未有的创新潜能和经济价值。今天，AI Agent 领域正站在类似的历史节点上。一场关于 Agent 通信标准的“协议暗战”已悄然打响，谁将定义 Agent 之间的“通用语言”，谁就可能掌握未来万亿级智能协作网络的底层法则。本文将深入这场暗战，透视其中的玩家、规则与未来格局。

AI Agent 协议，本质上就是定义 Agent 之间、以及 Agent 与外部工具、数据源如何进行结构化通信的标准化框架。与传统的 API 调用相比，协议更强调效率、更广的操作范围、更强的标准化以及与 AI 系统的原生兼容性。下表清晰对比了不同交互方式的特点：

场景

效率

操作范围

标准化

AI原生

API

服务器到服务器集成

✓✓

GUI

电脑/移动端使用

✓

XML

浏览器使用

✓

(表格来源: 改编自 arXiv:2504.16736v2, Table 1[6])

它是构建多 Agent 系统、实现 Agent 互操作性和可扩展性的基石。我们可以参考《A Survey of AI Agent Protocols》论文中首次提出的系统性分类框架，从两个维度来理解当前的协议格局：一是对象导向（面向上下文 vs. Agent 间），二是应用场景（通用 vs. 领域特定）。

AI Agent 协议分类图

(图片来源: arXiv:2504.16736v2, Figure 3[7])

在这场协议的争夺战中，主要有两大阵营：以大型科技公司为代表的“大厂玩家”，以及以开源社区为核心的“开放力量”。

大厂的生态壁垒与协议野心

大型科技公司凭借其在基础模型、云计算平台和现有生态中的优势，正积极推出自己的 Agent 协议，意图在下一代智能基础设施中占据核心地位。

Anthropic 的 MCP：Agent 的“外部大脑连接器”

Anthropic 推出的模型上下文协议 (Model Context Protocol, MCP)[8]是连接 LLM Agent 与外部资源（数据、工具、服务）的先驱协议。它的核心目标是标准化 Agent 获取上下文信息的方式，解决不同模型和工具接口碎片化的问题。MCP 采用客户端-服务端架构，Agent 作为 Host，通过 Client 向 Server 发起上下文请求，Server 则从 Resource 获取信息返回。这种设计将工具调用与 LLM 响应解耦，有助于提升隐私安全性，因为敏感的用户数据可以在本地客户端进行授权和处理，无需上传至云端 LLM。Anthropic 将 MCP 定位为开放标准，希望通过社区协作和广泛采用来建立影响力，这是一种“模型驱动”（Model-centric）的战略，旨在通过控制核心协议来影响整个 Agent 生态，巩固其在模型层面的领导地位。值得注意的是，Google 也计划将 MCP 集成到 Gemini 模型[9]，显示了其跨公司合作的潜力。

(图例：简化的 MCP 工作流程，展示了 Host, Client, Server, Resource 之间的交互)

Google 的 A2A：企业级协作的“连接器”

与 MCP 侧重 Agent 与资源的交互不同，Google 的 Agent2Agent (A2A) 协议[10]更专注于不同 Agent 之间的直接通信与协作。A2A 的设计原则强调“企业级就绪”（Enterprise Readiness），关注集成、安全和治理。它复用现有标准（如 HTTP/S, JSON-RPC 2.0），并引入 Agent Card、Task、Artifact 等概念来描述 Agent 能力和协作流程。A2A 支持异步长流程任务管理和多模态数据交换，非常适合企业内部或跨企业间复杂 Agent 协作场景。Google 在 A2A 的推广中，积极联合Atlassian 等企业伙伴共同制定标准[11]，并将其集成到 Google Cloud 平台，这是一种“企业驱动”（Enterprise-focused）的策略，旨在通过满足企业客户对安全、可信赖协作的需求来扩大影响力。

大厂协议的优势在于资源丰富、生态整合能力强、能提供企业级支持。然而，潜在的风险在于可能形成新的“围墙花园”，限制创新和互操作性，加剧市场集中。

开源社区的开放旗帜与互联愿景

与大厂的自上而下不同，开源社区倡导开放、去中心化的理念，致力于构建不依赖特定巨头、真正互联互通的 Agent 网络。

ANP：Agent 互联网的理想主义者

Agent Network Protocol (ANP)[12]是一个由开源社区推动的协议，其愿景是构建一个开放、安全、高效的数十亿 Agent 协作网络，如同“Agent 时代的 HTTP”。ANP 的核心原则包括互联互通、原生接口和高效协作。它采用三层架构：底层基于W3C DID（去中心化身份）[13]实现无需信任的身份认证和加密通信；中间层是元协议层，支持 Agent 间动态协商通信协议；上层是应用协议层，定义 Agent 发现、能力描述和任务执行标准。ANP 的去中心化设计和开放性，使其有望打破不同平台和供应商的壁垒，但面临安全与合规资源缺口、技术碎片化、缺乏企业级支持等挑战。尽管如此，ANP 已在一些开源项目和社区实验中实现跨平台 Agent 通信，展现了其潜力。

Agora：解决通信三难的元协议

由牛津大学等机构提出的 Agora 协议[14]，则从另一个角度切入 Agent 通信难题。他们发现，在异构 LLM Agent 网络中存在一个“通信三难困境”：Versatility（通用性）、Efficiency（效率）和 Portability（可移植性）难以兼顾。Agora 利用 LLM 理解自然语言和生成代码的能力，允许 Agent动态协商和调整通信协议。对于高频通信，使用高效的结构化协议；对于低频或异常情况，退回到自然语言协商。Agora 引入 Protocol Documents (PDs) 来描述协议，使 Agent 能够在无人干预下理解、实现、甚至创建新协议。牛津大学与 Eigent AI 团队通过 Agora 协议成功实现了100 个 AI Agent 的跨平台自治协作[15]，证明了其在大规模网络中的可扩展性和自组织能力。

开源协议的优势在于开放性、灵活性和创新速度，有助于避免供应商锁定和促进普惠智能。但它们在安全保障、生态建设和商业落地方面仍面临不小的挑战。

领域深耕者：特定场景下的协议创新

除了通用协议，针对人机交互、机器人协作、物联网等特定领域，也涌现出满足特定需求的协议，如用于网站信息获取的 agents.json[16]，用于物联网与 Agent 集成的LMOS (Language Model Operating System)[17]，以及专注于人机可解释交互的 PXP (Predict and eXplain Protocol) 等。这些协议在各自的细分领域推动着 Agent 应用的深化。

案例实战：一次旅行规划揭示的协议差异

理论分析略显枯燥，让我们通过一个具象的例子——规划一次“北京到纽约的五日游”——来看看不同协议在实际任务协作中的运作差异。

不同协议在旅行规划案例中的架构对比

(图片来源: arXiv:2504.16736v2, Figure 4[18])

MCP：单 Agent 的“中央调度”模式

在 MCP 模式下，一个主 Agent（比如旅行规划 Agent）承担“中央调度”的角色。它需要理解用户的复杂需求，然后自主决定调用哪些外部“工具”Agent（如订机票工具、订酒店工具、查天气工具）。它向这些工具 Agent 发送标准化的上下文请求（比如“查询 5 月 5 日北京到纽约的机票”），工具 Agent 返回结构化数据，主 Agent 再将这些数据整合，生成最终的旅行计划。这种模式清晰高效，但主 Agent 需要了解所有工具的能力和接口，且所有信息流都经过中心点，可能存在瓶颈。

A2A：Agent 间的“同事协作”模式

在 A2A 模式下，任务被分解并分配给不同的专业 Agent（如机票 Agent、酒店 Agent、天气 Agent）。旅行规划 Agent 更像一个项目经理，它将任务分解并委派给这些“同事”。这些专业 Agent 之间可以直接沟通协作，比如机票 Agent 需要天气 Agent 的信息来判断航班是否会受影响，它们可以直接通过 A2A 协议进行消息和数据交换，而无需事事汇报给旅行规划 Agent。这种模式更灵活、分布式，适合企业内部 Agent 系统的构建。

ANP：跨领域 Agent 的“标准协商”模式

ANP 则描绘了一个更开放的场景。机票 Agent 可能属于某航空公司，酒店 Agent 属于某个酒店预订平台，天气 Agent 属于气象服务提供商。它们分属不同的组织和领域。ANP 协议允许这些跨领域的 Agent 通过标准化的流程相互发现、认证身份（基于 DID），并协商通信协议。机票 Agent 需要天气 Agent 的数据时，它不是直接调用一个工具，而是通过 ANP 找到对应的天气 Agent，验证其身份，然后按照协商好的协议进行信息交换。这种模式旨在实现跨组织、跨平台的 Agent 互联互通。

Agora：自然语言驱动的“智能翻译”模式

Agora 则在用户与 Agent 之间增加了一个智能层。用户用自然语言表达需求（“帮我规划一个北京到纽约五日游”），Agora 层利用 LLM 理解用户意图，并将其转化为不同 Agent 能理解的标准化协议指令，分发给机票、酒店、天气等 Agent。这些 Agent 只需响应标准协议，无需直接处理复杂的自然语言。这种模式通过智能层屏蔽了自然语言的复杂性，让领域 Agent 更聚焦，同时也支持 Agent 动态生成和适应协议。

通过这些案例，我们可以看到不同协议的设计哲学和适用场景差异巨大。它们各自代表着解决 Agent 协作“语言障碍”的不同尝试，也构成了当前“协议暗战”的具体战场。

要衡量一个 Agent 协议的优劣，不能只看其功能是否全面，还需要一套多维度的评估体系。借鉴互联网协议的成功经验，并结合 Agent 的独特属性，我们可以从以下七个维度来考察：

不只是快和稳：Agent 协议的“七宗罪”与“七美德”

《A Survey of AI Agent Protocols》论文在其评估部分（Section 4）提出，我们可以从以下七个维度来评估 Agent 协议，下表进行了简化总结：

评估维度

核心关注点

效率

通信速度快、资源消耗低

可扩展性

支持 Agent/连接数量增长，动态适应网络变化

安全性

身份可信、数据保密、行为可控

可靠性

信息传输准确、完整、及时，具备容错能力

可扩展性 (Extensibility)

适应未来功能演进，保持向后兼容

可操作性

易于开发、部署、管理和维护

互操作性

支持不同 Agent/平台/框架间的无缝通信与协作

(表格来源: 改编自 arXiv:2504.16736v2, Table 4[19])

效率：协议通信的速度和资源消耗。Agent 间频繁的交互需要低延迟和高吞吐量。例如，有研究指出MCP 通过 HTTP Streaming 将延迟降低至传统 RPC 的 1/3[20]。

可扩展性：协议能否支持 Agent 数量和连接的指数级增长。Agent 网络的规模可能达到数百万甚至数十亿，这对协议管理节点和连接的能力提出了极高要求。需要关注节点可扩展性、连接可扩展性和能力协商效率。

安全性：协议如何保障 Agent 身份可信、数据不被泄露、行为不被恶意操纵。Agent 的自主性意味着一旦安全被攻破，后果可能更严重。需要考察认证模式多样性、权限控制粒度、上下文脱敏机制等。

可靠性：协议能否确保信息准确、完整、及时地送达。Agent 决策依赖于接收到的信息，不可靠的通信可能导致 Agent 行为失误。

可扩展性（Extensibility）：协议能否灵活适应新功能和技术发展，并保持向后兼容。AI 技术日新月异，协议需要预留未来演进的空间。

可操作性：协议的易用性，包括开发、部署、管理和维护的复杂程度。

互操作性：不同 Agent、不同平台、不同框架能否通过协议无缝通信和协作。这是打破“巴别塔”困境的核心。

深入解析：Agent 协议的关键评估指标

这些维度并非停留在概念层面，论文和补充信息提供了一些量化指标来衡量协议的“战斗力”：

安全性：认证方式多样性（支持 OAuth, DID 等）、权限控制粒度（能否细化到字段或任务级别）、上下文脱敏机制（是否支持数据屏蔽或匿名化）直接关系到 Agent 处理敏感数据的安全性。补充信息指出，当前 Agent 面临提示注入、工具滥用、身份伪造等多种新型攻击向量[21]，这要求协议必须内置强大的安全防御机制。

可扩展性：节点可扩展性（每秒能支持多少新 Agent 加入/退出）、连接可扩展性（每秒能建立多少新连接）、能力协商成功率（CNS）等指标，反映了协议应对 Agent 网络指数级增长的能力。

互操作性：Schema 兼容性测试通过率（SCTPR）是衡量不同 Agent 间“语言”兼容性的重要指标。开放标准联盟如AGNTCY 正是致力于提升跨平台 Agent 的互操作性[22]。

效率与可靠性：延迟、吞吐量、自动重试次数（ARC）、意外断开率（UDR）、消息丢失率（MLR）等，都是衡量协议性能和稳定性的传统网络指标，在 Agent 语境下有了新的重要性。补充信息中的基准测试（如Aisera 的 CLASSic[23]）显示，采用 MCP 的领域专用 Agent 在特定任务中能实现低延迟和高准确率。

这些评估维度和指标，为我们理解不同协议的优劣和适用场景提供了科学依据。然而，没有完美的协议，协议设计是一个不断权衡的过程。

协议演进的启示：在实战中寻找最优解的权衡艺术

协议的发展并非一蹴而就，而是在实践中不断迭代和演进的过程。从 MCP 自身的版本更新，到 MCP、ANP、A2A 等不同协议的共存与发展，都体现了这种权衡的艺术。

论文提到，MCP 从 v1.0 迭代到 v1.2，增加了对 HTTP Streaming 和认证机制的支持。这提升了协议的互操作性和安全性，但也可能引入新的性能考量。MCP 到 ANP 和 A2A 的演进，则代表了从连接资源到 Agent 间协作的范式转变，带来了可扩展性和灵活性的提升，但也引入了去中心化身份管理、复杂任务协调等新的挑战。

这些演进案例告诉我们，选择和设计 Agent 协议需要结合具体的应用场景进行权衡。例如，在对安全性要求极高的金融领域，可能更侧重协议的认证、权限控制和脱敏机制；而在需要大量 Agent 动态协作的场景，则更看重可扩展性和互操作性。未来的协议发展，也将是这些维度之间不断博弈和优化的过程。

Agent 协议的发展正以前所未有的速度向前推进，其未来图景充满想象空间。

短期演进：让 Agent 协议更“聪明”更“安全”

在短期内，我们可以预见协议将变得更加动态和智能。未来的协议可能不再是静态规范，而是具备学习和适应能力，能根据上下文和协作 Agent 的特点动态调整通信策略（可演进协议）。隐私保护和安全性将成为协议设计的标配，借鉴差分隐私、联邦学习等技术，让 Agent 在协作时最小化敏感数据暴露（隐私保护协议）。同时，Agent 间的协作模式也将从点对点走向更自然的群组模式，Agent Mesh 协议有望出现，让 Agent 像人类一样在共享的“群聊”环境中高效协作。

中期变革：架构重塑与 Agent “母语”化

中期来看，Agent 协议的架构将发生深刻变革。借鉴传统网络协议的分层思想，未来的协议可能形成分层架构，将底层传输与上层语义、任务协调解耦，提升模块性和灵活性。更具颠覆性的是，Agent 所基于的 LLM 模型本身可能内置协议知识，Agent 无需外部指令就能“理解”和遵循协议，实现更高效、无缝的交互（协议知识内置），尽管这可能带来模型更新和协议演进的挑战。

长期愿景：Agent 数据网络与集体智能的涌现

从长远来看，Agent 协议有望催生一个全新的智能基础设施——Agent 数据网络（ADN）。这将是一个专为 Agent 间数据交换和协调而优化的网络层，支持 Agent 状态同步、长期规划和异步协作，而无需人类介入。在这个网络之上，通过协议连接的 Agent 群体将超越个体能力，涌现出解决复杂难题的集体智能。这不仅仅是技术的进步，更是智能形态的演化，预示着一个由协议连接、数据流动、智能体协同工作的新世界，如同互联网带来的社会变革一样深刻。一些实验项目正探索基于区块链的去中心化 Agent 数据市场[24]和分布式模型训练基础设施[25]，为构建这样的未来奠定基础。

Agent 协议之争，不仅是技术路线的选择，更是关于未来 Agent 生态主导权的博弈。

总结：协议是解锁 Agent 潜力的关键钥匙

标准化、安全、开放的 Agent 协议，是打破当前 Agent 协作困境、释放 Agent 集体智能潜力的关键。它定义了未来智能体世界的沟通规则，决定了 Agent 生态的繁荣程度和发展速度。

开放 vs. 封闭：一场关乎未来的生态主导权博弈

这场“协议暗战”的核心，在于未来的 Agent 生态是走向由少数巨头控制的“围墙花园”，还是演变为一个开放互联、百花齐放的智能协作网络。

大厂凭借其资源和生态优势，有能力快速推动自家协议成为事实标准，提供集成度高、性能稳定的解决方案。但这可能导致供应商锁定，限制第三方创新，并引发数据垄断和隐私担忧[26]。

开源社区倡导的开放协议，虽然在落地和生态建设上面临挑战，但其去中心化、透明和灵活的特性，更有利于激发广泛创新，避免垄断，促进普惠智能。历史上，开放标准（如 TCP/IP）最终往往能战胜封闭标准，构建更具生命力的生态。但历史也告诉我们，单纯的技术开放不足以赢得标准战争，还需要战略性地构建开发者生态、商业支持和跨企业联盟。这一点，在Fast Company 的一篇文章[27]中也得到了分析。Google A2A 作为开放标准的尝试[28]，以及AGNTCY 联盟的成立[29]，都显示出行业正朝着开放互操作的方向努力。

协议的未来，需要我们共同书写与守护

Agent 协议的设计和演进，不仅仅是工程师和研究人员的任务，它关乎到未来 AI 如何与人类互动、如何影响社会。隐私保护、行为可控、责任追溯等伦理和治理问题，都需要在协议层面得到充分考虑。

正如互联网协议塑造了数字时代的面貌，Agent 协议也将定义未来的智能时代。这场“协议暗战”的结果，将深刻影响 AI 创新的路径、市场竞争的格局，以及我们每个人如何与智能体共存。推动构建一个开放、安全、普惠、负责任的 Agent 互联生态，需要所有参与者的共同努力和审慎思考。

未来的智能世界，正等待着它自己的“通用语言”。这场协议之战，我们每个人都应关注。

参考资料

[1]

摩根大通（JPMorgan Chase）通过 AI Agent 实现了超 30% 的欺诈减少:

[2]

富国银行（Wells Fargo）将贷款审批时间从数周缩短到数分钟:

[3]

辅助发现了罕见的白血病:

[4]

“Nova”:

[5]

《A Survey of AI Agent Protocols》:

[6]

arXiv:2504.16736v2, Table 1:

[7]

arXiv:2504.16736v2, Figure 3:

[8]

Anthropic 推出的模型上下文协议 (Model Context Protocol, MCP):

[9]

Google 也计划将 MCP 集成到 Gemini 模型:

[10]

Google 的 Agent2Agent (A2A) 协议:

[11]

Atlassian 等企业伙伴共同制定标准:

[12]

Agent Network Protocol (ANP):

[13]

W3C DID（去中心化身份）:

[14]

Agora 协议:

[15]

100 个 AI Agent 的跨平台自治协作:

[16]

agents.json:

[17]

LMOS (Language Model Operating System):

[18]

arXiv:2504.16736v2, Figure 4:

[19]

arXiv:2504.16736v2, Table 4:

[20]

MCP 通过 HTTP Streaming 将延迟降低至传统 RPC 的 1/3:

[21]

提示注入、工具滥用、身份伪造等多种新型攻击向量:

[22]

AGNTCY 正是致力于提升跨平台 Agent 的互操作性:

[23]

Aisera 的 CLASSic:

[24]

去中心化 Agent 数据市场:

[25]

分布式模型训练基础设施:

[26]

供应商锁定，限制第三方创新，并引发数据垄断和隐私担忧:

[27]

Fast Company 的一篇文章:

[28]

Google A2A 作为开放标准的尝试:

[29]

AGNTCY 联盟的成立:

来源：人工智能学家

标签： agent aiagent 暗战长文 a2a

本文地址：https://news.43u.com.cn/a/1452572.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐