时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。
针对传统关系抽取模型依赖特征工程等机器学习方法,存在准确率较低且规则较繁琐等问题,提出一种BERT+BiLSTM+CRF方法.首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练;然后利用BERT根据上下文...
详细信息
针对传统关系抽取模型依赖特征工程等机器学习方法,存在准确率较低且规则较繁琐等问题,提出一种BERT+BiLSTM+CRF方法.首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练;然后利用BERT根据上下文特征动态生成词向量的特点,将生成的词向量通过双向长短期记忆网络(BiLSTM)编码;最后输入到条件随机场(CRF)层完成对因果关系的抽取.实验结果表明,该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.0541,从而提高了深度学习方法在因果关系抽取任务中的性能.
暂无评论