在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.
交通仿真和计算实验作为交通科学问题研究和工程应用实践中的重要方法和手段,受到越来越多的关注.本文从社会网络角度,分析了2000年-2012年来,ISI Web of Science(WoS)收录的关于交通仿真及计算实验研究的文献.本文工作分为三部...
详细信息
交通仿真和计算实验作为交通科学问题研究和工程应用实践中的重要方法和手段,受到越来越多的关注.本文从社会网络角度,分析了2000年-2012年来,ISI Web of Science(WoS)收录的关于交通仿真及计算实验研究的文献.本文工作分为三部分:首先,分析了近13年来该领域每年论文的发表趋势;其次,引入社会网络,从论文数量、影响力、合作关系和知识传播度四个方面考察了关键学者,并给出了其合作关系聚类图;最后,仍然从上述四个方面考察了本领域内关键的研究机构.结果表明:该领域的研究成果和研究机构增长迅速;学者之间的合作关系非常广泛且极为复杂;合作的广泛程度与知识传播度并无明显的相关性;研究机构层面的合作呈现分散状态,且合作单位数量较少.
暂无评论