行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.
基于超扩展规则,证明了EPCCL(Each Pair Contains Complementary Literal)理论的合并过程是可并行执行的,并设计了针对多个EPCCL理论的并行合并算法PUAE(Parallel computing Union of Any number of EPCCL).通过对EPCCL理论原始子句集...
详细信息
基于超扩展规则,证明了EPCCL(Each Pair Contains Complementary Literal)理论的合并过程是可并行执行的,并设计了针对多个EPCCL理论的并行合并算法PUAE(Parallel computing Union of Any number of EPCCL).通过对EPCCL理论原始子句集的利用,提出了另一种高效的EPCCL理论并行合并算法imp-PUAE(improvement of PUAE).UKCHER(computing Union sets of maximum terms for Knowledge Compilation based on Hyper Extension Rule)是一种可并行的EPCCL理论编译算法,分别利用PUAE和imp-PUAE设计了两个并行知识编译算法P-UKCHER(UKCHER with PUAE)和imp P-UKCHER(UKCHER with imp-PUAE).实验结果表明:P-UKCHER算法虽然没有提升UKCHER算法的效率,但能够提升UKCHER算法编译结果的质量,最好情况下可提升4倍;而imp P-UKCHER算法能够提高UKCHER算法的效率,同时也能够提升编译结果的质量,同样最好情况下可提升4倍.
模型诊断方法是人工智能领域重要的系统故障自动检测方法,被广泛应用于软件故障检测和硬件诊断.近年来由于电路规模和复杂度不断增大,其诊断难度也不断增大.本文通过对电路模型特征的研究,结合LLBRStree(Last-Level Based on Reverse Se...
详细信息
模型诊断方法是人工智能领域重要的系统故障自动检测方法,被广泛应用于软件故障检测和硬件诊断.近年来由于电路规模和复杂度不断增大,其诊断难度也不断增大.本文通过对电路模型特征的研究,结合LLBRStree(Last-Level Based on Reverse Search-tree)诊断算法提出分组式诊断方法 GD(Grouped Diagnosis):首先结合电路特征确定组件的故障相关性并对电路组件进行分组,可缩减电路中需检测的规模;其次,利用分组后电路并结合非诊断解定理和SAT(SATisfiability)求解特征定位部分非诊断解,从而避免该部分的一致性检测来加速求解.本文算法可应用于电子电路故障诊断领域,并且实验结果表明该算法与LLBRS-tree算法相比求解效率平均提高了1.5倍,最多提高了3倍.
暂无评论