关键词:
多功能雷达
雷达干扰决策
强化学习
探索率
摘要:
针对当前基于强化学习的雷达干扰决策方法依据单一因素、固定规律设置探索率参数导致算法收敛需要的对抗回合次数增多的问题,提出一种探索率自适应设置的强化学习雷达干扰决策方法。基于模拟退火法的Metropolis参数调节准则,结合对抗过程中干扰机已识别的雷达工作状态数量、干扰成功次数、算法收敛曲线变化率及干扰机对雷达的认知程度,推导一种探索率自适应设置准则。依据干扰动作的有效性,设计一种干扰动作空间裁剪策略,减小干扰动作空间维度,进一步提高算法收敛速度。在仿真实验中,设计两个不同的雷达工作状态图,并结合Q学习算法予以对比验证。仿真结果表明,在雷达工作状态转换关系发生变化的情况下,新方法均可完成探索率的自适应设置,与基于模拟退火法以及单一因素、固定规律的探索率设置方案相比,新方法在两个状态图下收敛需要的对抗回合次数分别减少了18%、26%、45%和42%、44%、48%,同时还可获得更大的收益和更高的干扰成功率,为基于强化学习的多功能雷达干扰决策提供了一种新的探索率设置思路。