版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:北京工业大学信息学部 北京计算智能与智能系统重点实验室
出 版 物:《北京工业大学学报》 (Journal of Beijing University of Technology)
年 卷 期:2025年
核心收录:
学科分类:080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程]
主 题:强化学习 四足机器人 双延迟深度确定性策略(twin delayed deep deterministic policy gradient,TD3) 奖励函数 步态学习 集成网络
摘 要:为解决四足机器人技能学习领域中双延迟深度确定性策略(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成TD3算法(randomized ensembled network-TD3,RE-TD3)。该算法集成多个Q值网络,并随机选取Q值网络进行评估,缓解价值估计不准确的问题,有效提高策略性能。其次,设计合适的奖励函数以正确引导四足机器人的步态学习任务。最后设置仿真实验进行验证,实验结果表明,所提算法能够使四足机器人学习到良好的运动步态,与其他主流算法对比,RE-TD3算法学习到的步态在机体稳定性上提高了33%,在奖励值上提高了32%,在行走偏离度上改善了60%。