深度强化学习中的部分注意力，用于安全多智能体控制

张开发

• 2026/5/4 21:48:35 • 15 分钟阅读

分享文章

摘要注意力机制通过基于相关性和重要性对数据进行区分在学习序列模式方面表现出色。这为当今先进的生成式人工智能模型带来了最前沿的性能表现。本文将这种注意力机制的概念应用于多智能体安全控制领域。我们具体考虑设计一个神经网络用于控制高速公路汇入场景中的自动驾驶车辆。该环境被建模为分散式部分可观测马尔可夫决策过程Dec-POMDP。在QMIX框架内我们为每个自动驾驶车辆引入了部分注意力从而使每个自车能够聚焦于最相关的邻近车辆。此外我们设计了一个综合的奖励信号该信号兼顾了环境的全局目标例如安全性和车辆通行效率以及每个智能体的个体利益。模拟实验在城市交通模拟软件SUMO中进行。结果表明与其他驾驶算法相比该方法在安全性、行驶速度和奖励值方面均表现更优。I. 引言高速公路汇入是自动驾驶领域一个基础但极具挑战性的问题。它要求智能体在不确定性下对动态交互进行推理因为安全且高效的决策不仅取决于智能体自身的状态还依赖于周围车辆的行为。传统的基于规则的方法虽然简单但往往缺乏适应复杂动态汇入场景的灵活性。另一方面完全集中式的深度强化学习方法则面临可扩展性问题且难以在实际环境中部署。因此能够选择性关注相关信息的分散式策略为改善高速公路汇入问题提供了一个有前景的方向。文献中有几项类似的研究采用了多智能体强化学习MARL[22, 5, 23, 8, 6]。文献[7]的作者提出了一个简单的循环单元来捕捉高速公路汇入问题中的时间模式然后将这些模式输入到深度确定性策略梯度DDPG[11]网络中。之后他们通过引入一种优先经验回放机制来增强训练该机制根据特定经验期间的性能误差比例来采样经验从而能够频繁回放具有挑战性的场景以实现快速学习。文献[10]的研究使用了交叉注意力机制来融合车辆上不同仪器的姿态数据和语义数据主要用于导航任务。他们的工作展现了良好的性能但由于整个提出框架的复杂性需要耗费高昂的计算资源。我们考虑一个特定的多智能体场景即车辆需要汇入高速公路。针对此高速公路汇入任务的模型将在第二节中描述。我们提出的自主汇入解决方案基于两个要素这些内容将在第三节中进行回顾注意力机制和用于分散式多智能体强化学习的QMIX [15]。第四节随后详细阐述了我们设计的局部注意力机制和奖励塑造方法。我们将使用城市交通模拟软件SUMO[12]来展示所提出的方法并与其他方法进行比较第五节。最后第六节对本文进行总结并讨论未来可能的研究方向。我们的贡献有两点。首先我们通过引入一种部分注意力机制来增强QMIX架构该机制使每个智能体能够聚焦于最关键交互的信息。我们提出的部分注意力概念包含两个要素空间注意力和时间注意力。在空间注意力方面我们通过设计使每个智能体仅观察其前方的车辆和对向汇入道路上的车辆。在时间注意力方面神经网络通过自主学习自动聚焦于这些车辆过去的时间步信息。这在不产生显著计算开销的前提下提高了决策质量。其次我们设计了一个综合的奖励结构以平衡个体目标如速度维持和舒适性与全局目标如避免碰撞和改善交通流。通过精细的仿真验证我们的方法证明了其在安全性和效率方面的提升。