咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于随机集成TD3的四足机器人步态学习方法 收藏

基于随机集成TD3的四足机器人步态学习方法

作     者:朱晓庆 朱晓宇 阮晓钢 南博睿 毕兰越 

作者机构:北京工业大学信息学部 北京计算智能与智能系统重点实验室 

出 版 物:《北京工业大学学报》 (Journal of Beijing University of Technology)

年 卷 期:2025年

核心收录:

学科分类:080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程] 

基  金:国家自然科学基金资助(62103009) 

主  题:强化学习 四足机器人 双延迟深度确定性策略(twin delayed deep deterministic policy gradient,TD3) 奖励函数 步态学习 集成网络 

摘      要:为解决四足机器人技能学习领域中双延迟深度确定性策略(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成TD3算法(randomized ensembled network-TD3,RE-TD3)。该算法集成多个Q值网络,并随机选取Q值网络进行评估,缓解价值估计不准确的问题,有效提高策略性能。其次,设计合适的奖励函数以正确引导四足机器人的步态学习任务。最后设置仿真实验进行验证,实验结果表明,所提算法能够使四足机器人学习到良好的运动步态,与其他主流算法对比,RE-TD3算法学习到的步态在机体稳定性上提高了33%,在奖励值上提高了32%,在行走偏离度上改善了60%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分