上海交通大学团队提出面向多智能体系统的 SS-MARL 框架

摘要：多智能体系统的应用面临着两个主要挑战：安全性和可扩展性，安全性是指在多智能体协作过程中如何确保智能体不发生碰撞或其他危险行为，而可扩展性则涉及如何在智能体数量增加的情况下，仍能有效地协调和优化系统的整体性能。

多智能体系统的应用面临着两个主要挑战：安全性和可扩展性，安全性是指在多智能体协作过程中如何确保智能体不发生碰撞或其他危险行为，而可扩展性则涉及如何在智能体数量增加的情况下，仍能有效地协调和优化系统的整体性能。

随着强化学习（RL）技术的不断进步，多智能体强化学习（MARL）逐渐成为解决复杂协作任务的有效方法。都是现有的MARL算法在安全性和可扩展性方面仍存在诸多不足。特别是依赖于奖励塑造的MARL算法在确保安全性方面效果有限，并且由于固定大小的网络输出，其可扩展性也受到限制。

针对这些问题，上海交通大学团队提出了一种新颖的框架——可扩展安全多智能体强化学习（SS-MARL），目的是提高MARL方法的安全性和可扩展性，SS-MARL利用多智能体系统的固有图结构，通过设计多层信息传递网络来聚合不同规模的局部观测和通信。此外，团队开发了一种在局部观测环境下的约束联合策略优化方法，以提高训练策略和最终策略的安全性。他们的方法的可行性也通过Mecanum-wheeled的硬件实现得到了验证，代码和演示可以在GitHub获取（https://github.com/Qeneb/SS-MARL）。我们发现GitHub 代码网页内容已经不能正常显示，期待研究团队后期修复。

研究团队由来自上海交通大学自动化系的三位研究人员组成，他们分别是Haikuo Du、Fandi Gou和Yunze Cai教授。Haikuo Du在多智能体系统与强化学习领域有丰富的研究经验，Fandi Gou专注于优化算法与机器学习的应用，Yunze Cai教授作为团队的指导教授，拥有广泛的学术背景与实践经验。他们共同致力于提升多智能体系统的安全性与可扩展性，并在学术界和实际应用中取得了显著的进展。

通过大量的仿真实验，研究团队验证了SS-MARL在最优性和安全性之间的平衡能力，并展示了其在大规模智能体场景中的显著可扩展性。与现有最新算法相比，SS-MARL在性能和安全性方面均表现出了显著优势。

问题定义

多智能体系统（MAS）在现代科技应用中占据了重要地位，但其广泛应用面临着两个主要挑战：安全性和可扩展性。安全性是指在多智能体协作过程中，如何确保智能体不发生碰撞或其他危险行为，避免对自身和环境造成损害。可扩展性则涉及如何在智能体数量增加的情况下，依然能够高效地协调和优化系统的整体性能，从而保证系统在大规模应用中的有效性。

在多智能体系统中，传统的多智能体强化学习（MARL）算法通常依赖奖励塑造来实现智能体的协作。然而这种方法在确保安全性方面效果有限，并且在智能体数量增加时，其网络输出的固定规模限制了算法的可扩展性。因此，如何在保证安全性的前提下，提高多智能体系统的可扩展性，成为当前研究的重点。

图1:SS-MARL概述。AA：代理聚合，GA：图聚合，GAE：广义优势估计。

为了正式定义这一问题，研究团队采用了约束马尔可夫博弈（Constrained Markov Game，CMG）的框架。CMG是一个扩展的马尔可夫决策过程（MDP），其定义包括以下元素：智能体集合N = {1, 2, ..., n}，状态空间S，联合动作空间A = ∏ni=1 Ai，状态转移函数P：S × A × S → R，初始状态分布ρ₀，联合奖励函数R = S × A → R，成本函数集合C，成本约束值集合c，以及奖励和成本的折扣因子γ, γc ∈ [0, 1)。在时间步t，智能体处于状态St，并根据其策略πi(Ati |St)采取动作，形成联合策略π(At |St) = ∏ni=1 πi(Ati |St)。

在完全合作的设置中，所有智能体共享相同的奖励函数。研究的目标是最大化总奖励，同时满足每个智能体的安全约束。具体目标可以通过以下数学公式表示：

满足方程1中约束的联合策略被称为可行的。以下定义基于奖励函数，成本版本定义类似2，我们可以基于多智能体状态动作值（Q）函数定义多智能体优势（A）函数。这里，i:h和j:k是集合N的两个不相交的子集，以及−i:h表示i1:h相对于N的补码。其中，对所有i ∈ N, 1 ≤ j ≤ mi。满足约束的联合策略称为可行策略。通过这样的数学表述，可以确保智能体在合作完成任务的过程中，不仅追求最优性能，同时也遵守必要的安全约束，避免不必要的风险。

研究团队通过引入约束联合策略优化方法，旨在解决多智能体系统中的安全性和可扩展性问题，提出了一种新颖的SS-MARL框架。这一框架利用图神经网络（GNN）在智能体之间进行信息传递和聚合，以提高训练过程的采样效率，并通过约束联合策略优化方法，在保障安全性的同时，实现智能体系统的最优性能和良好的可扩展性。通过大量仿真实验，验证了该框架在复杂协作任务中的有效性，并展示了其在大规模智能体场景中的显著优势。

相关工作

安全多智能体强化学习（Safe MARL）在近年来吸引了大量研究者的关注，其主要目标是在多智能体系统中执行复杂协作任务时，确保系统的安全性。传统的多智能体强化学习（MARL）方法往往通过在奖励函数中添加负面惩罚来实现安全性，但这种方法通常无法确保最终策略的安全性。在安全单智能体强化学习的启发下，研究者们开始探索将成本约束作为约束条件的一部分来解决多智能体系统中的安全性问题。例如，CMIX算法通过修改奖励函数来处理峰值成本约束，但未能提供收敛证明。MACPO和MAPPO-Lagrangian算法则在已知状态值函数的前提下，证明了在成本约束下的单调改进和奖励收敛，但它们没有考虑智能体的局部观测，也没有提供多重约束情况下的解决方案。

在多智能体系统中，部分可观察性（Partial Observability）是一个不可忽视的挑战。现实世界中的多智能体系统，智能体只能观测到环境的部分信息。这种情况下，智能体需要将其他不可观测的智能体视为环境的一部分，这导致了环境的非平稳性，并违反了马尔可夫性质。为了应对部分可观察性的挑战，研究者们提出了分布式部分可观察马尔可夫决策过程（Dec-POMDPs）的研究范式。在Dec-POMDPs中，智能体通过共享局部观测信息来缓解部分可观察性的影响。例如，CommNet算法引入了共享通信神经网络，使智能体能够彼此通信。然而，该方法假设所有智能体可以成对通信，这在实际应用中不太现实。为了更好地解决这一问题，研究者们提出了基于Transformer的Email机制（TEM），通过加权选择消息来实现智能体之间的通信，但该方法在处理MAS中的约束时存在局限性。

在可扩展多智能体强化学习（Scalable MARL）的研究中，研究者们重点关注如何在智能体数量增加时，仍能保持算法的有效性和性能。中央化训练去中心化执行（CTDE）框架是其中一个重要的研究方向，该框架在局部观测的设置下，通过中央化训练实现可扩展性。例如，DGN算法利用多头注意机制和图卷积网络（GCNs）实现了可扩展性，但在实际应用中仍然存在局限性。EMP算法基于实体间距离采用GNNs方法，但假设所有实体状态在情节开始时已知，无法有效处理障碍物动态变化的情况。InforMARL算法则通过将UniMP网络集成到actor和critic网络中，提出了一个能够通过注意机制选择局部观测或通信权重的可扩展MARL框架，但其缺点在于继续使用奖励惩罚来维护安全性，导致对GNNs聚合信息的利用不足。

SS-MARL框架

框架概述

SS-MARL，即可扩展安全多智能体强化学习，是一个旨在解决多智能体系统（MAS）中安全性和可扩展性问题的创新性框架。其核心思想是利用多智能体系统的固有图结构，通过设计多层信息传递网络来聚合不同规模的局部观测和通信，以提高训练过程的采样效率。此外，研究团队引入了一种在局部观测环境下的约束联合策略优化方法，以保障训练策略和最终策略的安全性。

图神经网络（GNN）在MAS中的应用

图2:GNN中消息传递和聚合的可视化表示。（注：上图中未显示初始消息传递过程中的嵌入层）

在SS-MARL框架中，图神经网络（GNN）扮演了关键角色。GNN利用多智能体系统的图结构，实现智能体之间的信息传递和聚合。具体来说，GNN通过多层消息传递机制，聚合智能体之间的局部观测和通信信息，从而生成更为全面的全局信息。在每一层消息传递中，顶点特征V = {vi | 1 ≤ i ≤ |V|}首先通过嵌入层生成嵌入向量。然后，对于每个连接边{i, j}，边特征和源顶点特征与目标顶点特征连接，并通过一个多层感知器（MLP）生成消息，即

随后，通过注意力层聚合这些消息：

约束联合策略优化方法

在SS-MARL中，约束联合策略优化方法是确保安全性的重要机制。该方法通过引入额外的成本评论者组件，估计成本状态值函数，并在约束联合策略优化中作为成本约束，确保联合策略在保持安全的情况下得到优化。具体而言，联合策略的优化目标如下：

同时满足成本约束：

其中，对所有i ∈ N, 1 ≤ j ≤ mi。通过这样的优化方法，可以在保持系统安全性的前提下，实现智能体的最优协作。

SS-MARL的关键特性

SS-MARL框架具有以下几个关键特性：

利用图神经网络进行高效通信：SS-MARL利用GNN的多层消息传递机制，实现了智能体之间的高效通信和信息聚合，提升了系统的整体性能。

约束联合策略优化：通过引入成本评论者组件和约束联合策略优化方法，确保训练策略和最终策略在保持安全性的前提下达到最优。

强大的可扩展性：SS-MARL的设计使其在智能体数量增加时，仍能保持高效的性能和良好的协作能力，适用于大规模多智能体系统。

灵活的参数调整：SS-MARL框架中的参数可以根据不同任务的安全需求进行调整，从而实现任务的灵活配置和优化。

通过这些关键特性，SS-MARL框架在多智能体系统中展现了强大的应用潜力和优势，为解决多智能体系统中的安全性和可扩展性问题提供了一种有效的解决方案。

详细方法

SS-MARL框架在设计上涵盖了多个关键组件，其中包括行动者（Actor）、评论者（Critic）和成本评论者（Cost Critic），这些组件通过紧密协作实现了系统的高效性和安全性。

行动者、评论者和成本评论者的架构

在SS-MARL中，行动者负责从图G中提取信息，包括智能体的局部观测和通信细节，而评论者和成本评论者则需要从G中获取全局信息。为了实现这一目标，SS-MARL框架采用了基于图注意机制的消息传递模型。

消息传递和聚合机制

在GNN骨干网中，顶点特征V首先通过嵌入层生成嵌入向量。然后对于每个连接边{i, j}，边特征、源顶点特征和目标顶点特征连接，并通过一个多层感知器（MLP）生成消息，即

这样一来，智能体可以通过多层消息传递机制，从更远的智能体获取信息，减轻部分可观察性的影响。行动者执行智能体聚合（AA），聚合与单个智能体相关的观测和通信，而评论者和成本评论者执行图聚合（GA），通过注意层传递顶点特征聚合所有智能体的顶点，即

尽管GA聚合了更多的环境信息，但AA和GA的输出向量长度相同，且长度与智能体的数量无关，支持SS-MARL的可扩展性。

LSTM在SS-MARL中的作用

为了应对环境中马尔可夫性质违反的问题，SS-MARL在行动者、评论者和成本评论者中引入了长短期记忆网络（LSTM）。LSTM能够有效地处理时间序列数据，帮助模型在长期依赖关系中提取关键信息，并在解决环境动态变化的问题时表现出色。

对角高斯层和MLP层的应用

在行动者的输出端，SS-MARL采用对角高斯层生成随机输出，从而实现策略的随机性和探索性。评论者和成本评论者则通过多层感知器（MLP）计算并输出奖励状态值和成本状态值。对角高斯层能够提供策略输出的概率分布，使得智能体能够在不同策略之间进行选择，以实现最优的策略执行。

约束联合策略优化的实现细节

约束联合策略优化方法是SS-MARL框架中确保安全性的关键机制。在这一方法中，参数化的联合策略经过多次更新后，使用平均KL距离约束近似最大KL距离约束，从而简化优化问题。

为了进一步优化，该公式通过目标函数和成本约束的一阶泰勒展开式以及KL散度约束的二阶近似进行近似：

满足：

通过这些机制，SS-MARL在保证安全性的同时，实现了系统的最优性能和良好的可扩展性，为多智能体系统提供了一种高效且可靠的解决方案。

实验与分析

实验设计

为了验证SS-MARL的性能，我们在多智能体粒子环境（MPE）中进行了仿真实验，并对MPE进行了修改以适应安全多智能体强化学习算法。实验主要包括合作导航任务，每个智能体需要在避免与其他实体碰撞的情况下到达自己的目标。智能体之间的碰撞次数被建模为成本，碰撞次数越少表明安全水平越高。我们假设每个智能体的成本约束值相同，即ci = c，∀i ∈ N。

图3:SS-MARL的训练表现与基线的比较。（a）（b）（c）是训练阶段期间每个代理每一步的平均奖励，（d）（e）（f）是训练期间每个代理每步的平均成本。

安全性分析

在安全性分析实验中，我们设计了两个代表性的成本上限参数c，并在固定的场景中进行训练。实验结果表明，训练过程中每步每个智能体的平均成本逐渐收敛到预期的上限值。通过比较不同成本上限参数下的智能体轨迹，可以观察到，较低的成本上限（c=1）虽然导致智能体的轨迹更长，但显著提高了安全性，因为智能体在训练阶段几乎无法容忍任何碰撞。较高的成本上限（c=6）允许智能体在更大的探索空间中寻找最优策略，但可能增加碰撞风险。

图4：在训练阶段，（a）c=1，（b）c=6，（c）每个代理每步的平均奖励和每个代理每一步的平均成本的场景。

性能比较实验

为了评估SS-MARL相对于其他算法的性能，我们在不同复杂度的正方形场景中进行比较实验。这些场景包括n个智能体和n个障碍物，场景中的智能体初始位置和目标位置以及障碍物位置都是随机生成的。我们选择了n=3, 6, 9来代表不同的环境复杂度进行实验。比较算法包括RMAPPO、RMACPO和InforMARL。实验结果表明，在所有场景中，SS-MARL（PS）的奖励曲线收敛速度比SS-MARL（NPS）快得多，表明策略共享在同质智能体的合作任务中显著提高了采样效率。

可扩展性实验

图5：当测试集（左）开始和（右）结束时，使用在n=3的场景上训练的模型将零样本转移到n=24

为测试SS-MARL的可扩展性，我们选择n=3训练的模型，并零样本传输到更大n的场景中，并将结果与InforMARL和TEM方法进行比较。随着n的增加，智能体到达目标所需的时间也会增加。实验结果表明，SS-MARL在所有指标上都表现出强大的可扩展性，优于其他两种方法。特别是，使用仅训练了3个智能体的SS-MARL模型，当扩展到96个智能体时，仍能达到超过90%的成功率，并将每个智能体的碰撞次数保持在5次以下。

图6：SSMARL和其他基线的零样本传输性能比较。每n次重复测试100次，取平均值。该模型在n=3的场景下进行训练。R：每个代理的平均剧集奖励，C：每个代理的每集平均成本，S：成功率。

实验结果验证了SS-MARL在最优性和安全性之间的平衡能力。通过调整成本上限参数，SS-MARL能够在不同安全需求下实现任务的灵活配置和优化。与其他最新算法相比，SS-MARL在奖励值、成本值和成功率方面表现出了显著优势，尤其在复杂场景中，这种优势更加明显。此外，SS-MARL的可扩展性实验显示出其强大的适应能力，即使在大规模智能体场景中，依然能够保持高效的性能和安全性。

结论

在多智能体系统（MAS）的研究领域中，研究团队提出的SS-MARL框架无疑是一项重要的创新。研究团队通过系统的方法和大量的实验验证，展示了SS-MARL在安全性和可扩展性方面的显著优势，为多智能体系统的研究和应用提供了一条新的路径。

SS-MARL的主要贡献体现在其创新性框架设计和有效的策略优化方法。首先，研究团队利用图神经网络（GNN）在多智能体系统中的应用，实现了智能体之间高效的信息传递和聚合。通过多层消息传递机制，SS-MARL能够在局部观测的环境中获取更全面的全局信息，从而提升了系统的整体性能。其次，研究团队提出的约束联合策略优化方法，通过引入成本评论者组件，确保训练策略和最终策略在保持安全性的前提下达到最优。这一方法不仅提高了系统的安全性，还为多智能体系统的协作提供了一种高效的优化手段。

SS-MARL在安全性和可扩展性方面的优势

在安全性方面，SS-MARL通过调整成本上限参数，实现了安全性和最优性之间的平衡。实验结果表明，较低的成本上限参数虽然会导致智能体的轨迹更长，但能显著提高系统的安全性，避免了在训练和执行过程中发生碰撞的风险。相较于其他基于奖励塑造的方法，SS-MARL通过约束联合策略优化方法，确保了智能体在不同任务中的安全性。

在可扩展性方面，SS-MARL展示了强大的适应能力。实验结果显示，SS-MARL即使在大规模智能体场景中，仍能保持高效的性能和安全性。特别是通过零样本传输实验，验证了SS-MARL在智能体数量增加的情况下，依然能够高效地协调和优化系统的整体性能。这为多智能体系统在实际应用中的推广提供了坚实的理论和实践基础。

未来工作方向

尽管SS-MARL已经在多智能体系统中展现了显著的优势，但仍有一些问题和挑战需要进一步研究和解决。

复杂环境中的应用：在更复杂和动态变化的环境中验证和优化SS-MARL框架，以进一步提升其适应性和鲁棒性。

多任务学习：探索SS-MARL在多任务环境中的应用，通过多任务学习提高智能体的通用性和适应性。

实际应用测试：在真实世界的应用场景中测试和验证SS-MARL框架的性能，推动其在工业、农业、医疗等领域的应用。

算法优化：进一步优化和改进SS-MARL的算法，提高其计算效率和训练速度，降低实际应用中的资源消耗。

总之，SS-MARL框架为多智能体系统的研究和应用提供了一种创新且有效的解决方案。通过未来的持续研究和改进，SS-MARL有望在更多实际应用场景中发挥其潜力，推动多智能体系统的发展和进步。（END）

参考资料：https://arxiv.org/abs/2501.13727

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，基于意识科学和情绪价值的理论基础，通过AI技术驱动帮助用户进行情绪管理的工具和传递情绪价值的社交产品，波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

来源：晓霞科技讲堂

标签：上海交通大学多智能体多智能体系统

本文地址：https://news.43u.com.cn/a/539568.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!