关键词:
深度强化学习
自主着陆
抽象SMDP状态转移图
安全性提升
实时监控
反向广度优先搜索
摘要:
在月球着陆任务中,着陆器必须在极端环境下进行精确操作,并且通常面临着通信延迟的挑战,这些因素严重限制了地面控制的实时操作能力。针对这些挑战,研究提出了一种基于半马尔可夫决策过程(SMDP)的深度强化学习安全性提升框架,旨在提高航天器自主着陆的操作安全性。为了实现状态空间的压缩并保持决策过程的关键特征,该框架通过对历史轨迹的马尔可夫决策过程(MDP)压缩成SMDP,并根据压缩后的轨迹数据构建抽象SMDP状态转移图,然后识别潜在风险的关键状态-动作对,并实施实时监控及干预,有效提高了航天器的自主着陆安全性。采用了反向广度优先搜索方法,搜索出对任务结果有决定性影响的状态-动作对,并通过搭建的状态-动作监控器实现对模型的实时调整。实验结果显示,该框架在不需增加额外传感器或显著改变现有系统配置的条件下,能够在预训练的深度Q网络(DQN)、Dueling DQN、DDQN模型上,提升月球着陆器在模拟环境中的任务成功率高达22%,在预设的安全性评价标准下,该框架能提升最高42%的安全性。此外,虚拟环境中的模拟结果展示了该框架在月球着陆等复杂航天任务中的实际应用潜力,可以有效提升操作安全性和效率。