2026, 48(5): 2089-2101.
doi: 10.11999/JEIT251231
摘要:
针对多无人机自主协同避障航路规划任务中,传统多智能体强化学习算法存在的收敛速度慢,无人机协同性不足等问题,该文提出一种先验引导的时序融合价值分解算法(PGL-QMIX)。该方法在离线阶段利用A星(A*)算法生成全局参考路径,并在在线决策中仅提取智能体感知范围内的局部路径片段与几何评分作为弱先验,引导个体策略在部分可观测环境下实现稳定探索与协同避障。同时,设计了双重长短期记忆网络(LSTM)架构,用于建模先验知识与实时状态的时序依赖关系。并对各无人机的动作价值函数进行动态加权融合与自适应优化,提升系统的环境适应性与多无人机协同的稳定性。实验结果表明,所提方法在三维栅格场景中,相较于同场景下次优结果,所提方法的收敛步数分别减少3.0%, 7.2%和7.4%,稳态任务成功率分别提升1.26, 4.41和8.12个百分点,平均航路长度分别缩短6.2%, 8.5%和10.0%,验证了该方法在多无人机自主协同避障航路规划中的有效性与稳定性。