图神经网络崛起，Transformer助力无人机组团“开挂”！

摘要：在多智能体系统中的协作算法中，传统的路径规划方法，例如旅行商问题求解器、粒子群优化算法和贪婪搜索策略，通常能够在静态或已知环境中表现出色。当环境充满不确定性且任务目标分布未知时，这些方法的局限性显露无遗。传统强化学习方法虽然能够在部分可观测环境中进行学习，但在

在多智能体系统中的协作算法中，传统的路径规划方法，例如旅行商问题求解器、粒子群优化算法和贪婪搜索策略，通常能够在静态或已知环境中表现出色。当环境充满不确定性且任务目标分布未知时，这些方法的局限性显露无遗。传统强化学习方法虽然能够在部分可观测环境中进行学习，但在多智能体场景中却常常难以协调智能体之间的行为，导致效率低下。问题的核心在于这些传统方法缺乏对智能体之间复杂关系的有效建模能力，同时也很难在多智能体系统中利用长期协作的优势。

于是为解决这些问题，研究者们开始寻找更加创新的解决方案。图神经网络（Graph Neural Network, GNN）在建模图结构化数据方面表现出色，可以用来刻画智能体之间以及智能体与目标之间的复杂交互关系。而 Transformer以其卓越的长距离依赖捕捉能力和消息传递机制，可以有效处理部分可观测环境下的序列化信息。这两种技术的结合为多智能体系统的优化提供了新的方向，不仅能够提升智能体间的协调能力，还能显著优化路径规划和任务执行。

这项研究由多个机构的专家协同完成，体现了跨领域合作的深度与广度。主要团队来自美国南卡罗来纳州的克莱姆森大学（Clemson University）计算学院，汇聚了 Michael Elrod、Niloufar Mehrabi、Long Cheng、Jim Martin 和 Abolfazl Razi 等计算领域的杰出研究者，他们专注于深度强化学习、图神经网络和多智能体系统的技术研发。加州州立大学洛杉矶分校（California State University, Los Angeles）的计算机科学系研究员 Manveen Kaur 和麻省理工学院林肯实验室（MIT Lincoln Laboratory）的技术专家 Rahul Amin，也为研究带来了重要的视角和支持。

技术背景与相关工作

在实际应用中，多智能体系统的需求非常明确——它们需要在复杂的环境中执行高效协作。例如，灾害响应场景中，无人机需要快速找到目标点，分发资源并监测关键区域；农业场景中，它们需要在广阔农田中定位病虫害区域；甚至在城市规划中，无人机可以协作提供实时监控数据以辅助交通管理。这些任务通常都需要智能体具备以下能力：独立导航、实时决策以及互相协调。

这样的协作任务并不轻松。一方面，智能体通常面临部分可观测性问题：摄像头视野有限，通信范围受限；另一方面，动态环境中的不确定性使得智能体必须具备自适应能力。在灾害响应场景中，无人机可能无法提前预测哪些区域需要覆盖，这就要求它们能在实时获取数据时快速调整策略。而且在团队工作中，单个智能体的错误可能影响整个任务的效率，这就对协作算法提出了更高的要求。

对于协作任务规划，传统方法在较为简单的场景中有不错的表现。例如，粒子群优化算法（PSO）擅长全局搜索目标，但容易在动态环境中陷入局限。贪婪算法虽然能快速做出决定，但往往缺乏长远规划，导致效率低下。基于普通深度Q网络（DQN）的强化学习方法可以帮助智能体学习策略，但在多智能体场景中会出现智能体间协调不足的问题。

另一种研究较多的分布式约束优化（DCOP）技术通过明确任务优先级来改善智能体间的协调能力。这些方法通常能够在通信较充分的场景中提升效率，但它们的通信开销巨大，使得实际应用中难以应对带宽受限的条件。这些技术的优点是显而易见的，比如快速响应、简单实现；但它们的缺陷也不容忽视，尤其是当任务规模和复杂度提升时，这些方法的性能往往会大打折扣。

在解决上述问题的过程中，深度强化学习（Deep Reinforcement Learning，DRL）、图神经网络（Graph Neural Network，GNN）以及 Transformer 技术的结合，为多智能体协作带来了新希望。

DRL 最大的优势在于它能够处理部分可观测性环境下的任务，通过学习状态与动作的映射关系来优化智能体的决策。它能处理环境的不确定性，并随着经验积累不断提升策略。但在多智能体场景中，DRL单独使用时容易因智能体间缺乏有效信息交互而导致局部最优。

图1：具有5个代理和20个目标、未收集目标（绿色）、收集目标（灰色）和代理视觉半径rv（代理周围的红色圆圈）的网格环境的示例配置。无人机最多可以与k=3个相邻无人机通信。

图神经网络的出现提供了一个革新性的解决方案。GNN能够高效地建模智能体与目标之间的关系，将整个系统表达为图结构，并通过节点和边捕获关键的协作信息。在任务规划中，GNN可以帮助无人机了解自己与其他成员的相对位置，以及如何分配目标。

而 Transformer以其多头注意力机制和卓越的信息捕捉能力，进一步增强了任务规划的效果。它能够在部分可观测环境下处理长距离依赖关系，将局部信息与全局信息结合，从而让智能体之间的消息传递更加高效。

方法论解析

2.1 问题表述与模型构建

在多智能体导航中，如何使无人机在未知目标和动态环境下实现高效路径规划是一个核心问题。研究团队将该问题建模为部分可观测马尔科夫决策过程（MDP），以充分捕捉环境的不确定性和智能体的决策过程。

MDP 通常通过四元组 (S,A,T,R) 来描述：

状态空间 (S)：包括环境中的所有可能状态。对于每个智能体 i，状态可以细化为：

其中pi(t)表示代理i的位置，Gi（t）表示可见和未收集目标的集合，其中 pi(t)是智能体的位置是可见且未被收集的目标集合，而 Vi(t)是智能体的可视区域，定义为满足以下条件的点集：

rv是视野范围，设定为 4.5 单位。

动作空间 (A)：智能体可以选择的动作为四个方向的离散移动（上、下、左、右）。转移动态 (T)：描述状态之间的变化，由环境和智能体的动作决定。奖励函数 (R)：用于引导目标导向行为并惩罚无效动作，其定义为：
γ=0.99\gamma = 0.99 为折扣因子。rg=+10是成功收集目标的奖励。rv=−5是无效动作的惩罚。Ig,Iv分别是目标是否被收集和动作是否合法的指示函数。

这一框架确保了智能体在部分可观测的环境中能够逐步优化其导航策略，提升目标达成率和任务效率。

2.2 图神经网络架构设计

多智能体之间的交互关系复杂，传统方法难以捕捉这种动态。为此，研究团队提出了一种基于图神经网络（GNN）的架构，将智能体和目标建模为节点，通过自适应的边权表征关系。

图2：提出的GNN架构由实体嵌入层和基于转换器的消息传递机制组成。

节点特征构造：每个节点 vi 的特征向量 fi 包括空间位置和动态目标信息：

其中：

表示节点相对于观察智能体的相对位置。

是三个最近目标的位置及其收集状态。

τi标识节点类型：0表示智能体，1表示目标。

自适应图构建方法：图结构通过动态更新生成，其中边权重 eij 的定义为：

有效边集合 Evalid满足以下条件：

这种动态图结构使得模型能够随时间步捕捉环境变化，优化智能体的协作任务规划。

2.3 Transformer 增强的消息传递机制

图神经网络的优势在于局部信息处理，而 Transformer 则以其长距离依赖捕捉能力为补充，进一步提升消息传递效率。

图3：基于Transformer的架构生成的注意力权重热图。行表示源节点，列表示目标节点（目标）。颜色越亮（权重越高）表示注意力越强，突出了关键的代理目标关系。

实体嵌入层：初始节点特征 fi 被扩展为：

ϕ(τi) 是实体类型的嵌入。eij表示节点间的边权。

其中 H=3是注意力头数，Whl为权重矩阵。

注意力系数计算为：

bij通过边权 eij融入注意力机制。

这种机制动态调整权重，优先处理关键交互关系，例如智能体与目标或智能体间的协调信息，从而实现局部与全局信息的平衡。

2.4 强化学习架构：双深度 Q 网络

为降低训练误差并提升学习效率，研究团队采用了双深度 Q 网络（Double DQN）架构，并结合优先经验回放。

损失函数设计：

其中 yi是目标 Q 值：

重要性采样权重 wi计算为：

δi是时间差分误差，ϵ、α、β为超参数。

目标网络软更新机制：在线网络参数 θ更新为：

θ′←τθ+(1−τ)θ′

这种架构结合优先经验回放策略，显著提升了智能体在部分可观测环境中的学习效率。

实验设计与结果分析

3.1 实验环境与参数设定

为了验证这一框架的有效性，研究团队设计了一个可扩展的网格化模拟环境，旨在模拟各种复杂任务情境。从小规模的 10×10 网格到较大规模的 60×60 网格，实验逐步增加了任务的复杂性，以测试方法的适应能力和扩展性能。

每个实验环境中都随机分布了智能体和目标。以小型网格为例（如 10×10 网格），智能体和目标的数量相对较少，适合评估基础导航性能；而在更大的网格（如 60×60）中，智能体数量可能扩展到 33 个，而目标数量则达到 169 个，这种配置能充分检验算法在高密度目标场景中的任务分配能力。

为了使实验更接近真实应用场景，团队为智能体设置了两项重要的限制：

1.视觉范围：每个智能体的视野为以当前位置为中心、半径为 4.5 个单位的圆形区域，仅能感知附近的目标和智能体。

2.通信约束：智能体只能与最近的 3 个邻居通信，这不仅模拟了实际带宽限制的场景，还强调了在受限通信条件下的高效协作需求。

这一实验设定为不同规模和条件的多智能体系统提供了统一的测试基准，能够全面评估所提出框架在真实复杂环境中的表现。

3.2 训练过程与细节

训练过程设计精巧，旨在确保智能体能够在动态环境中高效地学习和改进其导航策略。研究团队使用了以下训练参数：

学习率：设置为 α=0.0005，以平衡学习的稳定性和速度。经验回放缓冲区：大小为 100,000，允许算法从大量历史经验中提取信息，避免偏倚。探索策略：采用ϵ贪心方法，其中 ϵ从 1.0 线性衰减到 0.01，逐步减少随机探索以专注于利用已学得的策略。

每次训练更新在包含 64 条经验的 mini-batch 中进行，优先抽取那些有更高学习潜力的经验进行训练。团队还结合了软更新策略，对目标网络的参数 θ′按以下公式更新：

θ′←τθ+(1−τ)θ′

其中 τ=0.001，确保更新过程足够平滑，避免剧烈波动。

训练以回合形式进行，每回合最多包含 200 个时间步。在每 4 个时间步后，智能体根据新采样到的经验优化策略，从而逐步提升其目标收集能力和任务效率。

3.3 性能评估指标解析

为了全面衡量框架性能，研究团队选取了以下两大核心指标：

目标收集率：衡量智能体成功访问目标点的比例。这一指标直接反映了系统的任务完成效果。网格覆盖率：计算智能体在单回合内观察到的网格比例，用于评估其探索能力。

图4：所提出的方法与基线DQN方法在（a）目标实现和（b）网格覆盖方面的比较。

此外，每回合所需的平均步数和时间效率也被用来比较不同算法的表现。结果显示，所提出的 GNN 架构显著优于基线 DQN。在一个包含 15 个智能体的大型网格（40×40）实验中，GNN 的目标收集率达到 90%，而传统DQN 仅为 42%。更重要的是，GNN 实现了近乎 100% 的网格覆盖率，而 DQN 在更大规模网格中的覆盖率最高只能达到 82%。这些数据表明，GNN 在处理高密度目标任务时具备强大的扩展性和效率。

图5：GNN和DQN方法之间的性能比较显示了15个代理随时间收集的目标百分比。

3.4 对比分析与消融研究

为了全面验证框架的优越性，研究团队对比了多种基线算法，包括粒子群优化（PSO）、基于密度的扫描（DBSCAN）、贪婪搜索算法和普通强化学习（RL）。实验结果显示，无论是在目标收集效率还是任务完成时间上，GNN 均显著领先。例如，在 100×100 的大规模网格中，GNN 平均每回合需要 200 步，而其他方法需要多达 600 步。

图6：所提出的方法和基准算法之间的目标实现比较。

研究还通过注意力权重热图分析了 Transformer 在框架中的作用。热图清晰地展示了智能体与目标之间的交互重点。例如，某些智能体在关键任务目标上分配了更高的注意力权重，从而显著提升了整体协作效率。

图7：在具有15个代理的40×40环境中，不同代理连接限制对GNN性能的影响。该分析涵盖了2到7个最近邻居的连接限制。

在消融实验中，研究团队改变了智能体之间的通信连接数，从 2 到 7 不等。结果表明，适度增加连接数有助于提升性能，因为智能体可以通过额外的连接交换更多信息。然而，当连接数超过一定阈值后，性能的提升趋于饱和，甚至因通信开销增加而略有下降。这一现象凸显了通信资源与任务性能之间的权衡，为实际应用中如何设计通信策略提供了宝贵的实践指导。

总结与讨论

4.1对研究团队创新点的整体评价

在传统路径规划与强化学习方法仍然困于动态环境复杂性的今天，研究团队的创新显得尤为夺目。他们提出了一种将图结构和 Transformer 技术有机结合的新颖方法，以应对多智能体导航的挑战，并在有限通信与部分可观测条件下实现了协作任务的显著优化。

图神经网络 (GNN) 的核心贡献在于提供了一个灵活的建模工具，将智能体间的交互关系及智能体与目标点之间的关联以结构化图的形式呈现。通过动态更新图结构，该框架能够实时适应环境变化，实现了智能体间的高效协作。而 Transformer 的加入则进一步增强了消息传递的能力，其多头注意力机制可以捕捉长距离依赖，并在局部与全局信息之间找到完美平衡。这种双技术结合使得智能体既能高效处理与邻居的交互关系，又能优化整体任务规划。

研究团队的实验结果令人印象深刻。相较于传统方法（如粒子群优化、贪婪算法及基线 DQN），GNN 和Transformer 的组合在目标收集率、网格覆盖率以及任务完成效率上均取得了显著提升。这一架构不仅解决了传统方法扩展性不足的问题，还充分利用了信息交换中的协作优势，为动态多智能体任务规划设立了新标杆。

研究团队的细节处理也展现了严谨性与前瞻性，节点特征的精确构造、自适应图的动态生成以及基于双深度 Q 网络的学习策略相辅相成，推动了整体框架的高效运行。无论从理论创新还是实际效果来看，这篇研究团队都为多智能体协作系统的发展提供了重要启示。

4.2对实际应用和未来发展的启示

这一框架不仅在理论上具有突破性意义，在实际应用中也展现了强大的潜力。无人机自主规划是一个直接且现实的应用场景。想象一组无人机在灾害响应中部署，它们能够像蜂群一样协调行动，快速覆盖所有受影响区域。凭借 GNN 的结构化信息处理能力和 Transformer 的高效消息传递机制，无人机能够实时调整路径，最大化资源利用率，同时在部分可观测环境中保持决策的鲁棒性。

在农业领域，这一方法同样充满前景。无人机可以协作完成农田监测任务，例如精准定位病虫害区域，并高效分配工作目标，减少重复飞行。更重要的是，这种框架还可以适应动态天气条件，实时更新监测策略，为农作物管理提供支持。

除此之外，城市交通管理也是一个值得探索的方向。多智能体系统可以利用这一框架，协同优化交通流量管理，减少堵塞情况发生。例如，一组自动驾驶车辆可以基于实时感知数据自主规划路径，在确保安全的同时提升整体效率。

未来的研究也面临一些挑战。随着任务规模进一步扩大，通信带宽限制可能成为瓶颈。这就需要探索更加高效的通信策略，例如压缩信息以减少传输负担。此外在计算复杂性方面，如何在资源受限设备（如无人机）上实现更轻量化的算法也是一个重要课题。（END）

参考资料：https://arxiv.org/abs/2504.08195