针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po...
详细信息
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.
抽象语义表示(Abstract Meaning Representation,AMR)解析任务是从给定的文本中抽象出句子的语义特征,成分句法分析(Constituency Parsing)任务则探寻句子中的层次逻辑结构。由于AMR解析和成分句法分析之间存在着很强的互补性,抽象语义...
详细信息
抽象语义表示(Abstract Meaning Representation,AMR)解析任务是从给定的文本中抽象出句子的语义特征,成分句法分析(Constituency Parsing)任务则探寻句子中的层次逻辑结构。由于AMR解析和成分句法分析之间存在着很强的互补性,抽象语义需要把握文本的句法结构,而句法分析可以通过理解句子中的语义信息来避免歧义,因此该文提出了一种联合训练方法用于捕获两个任务之间的内部联系从而提升各自任务的性能。此外,为了解决两个任务由于数据量过少造成的数据依赖问题,该文利用外部语料获得大规模自动标注AMR图以及自动标注句法树,并基于上述联合学习方法,采用预训练+微调的半监督学习方法进行训练。实验结果表明,该方法可以有效提高模型的性能,其中AMR解析任务在AMR 2.0上提升了8.73个F_(1)值,句法分析在PTB上获得了6.36个F_(1)值的提升。
暂无评论