片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。
高斯过程通过概率建模能够有效地捕捉数据中的复杂关系,并提供关于预测结果的不确定性评估,是一个强大而灵活的工具.但由于矩阵求逆的较高计算复杂度,限制了模型在其他领域内的应用.本文针对高斯过程模型的矩阵求逆问题,提出了一种基于球谐函数的高斯过程近似模型(Variational Sparse Gaussian Processes based on Spherical Harmonic, SHVSGP),通过球谐函数将数据映射到超球面上,在一个不同于数据原始输入域的空间中寻找一个更紧凑的输入特征代表集,使得产生的稀疏高斯过程模型能够包含有更丰富的信息特征,同时获得诱导变量相关的对角协方差矩阵,这极大简化了矩阵运算的复杂度,节省了计算成本.本文将SHVSGP模型与当下流行的其他近似方法在大规模数据集上进行比较,结果表明SHVSGP模型可以获得高效且精确的预测.
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.
蒙特卡洛树搜索(Monte Carlo tree search, MCTS)将强化学习的反馈优化与生长树的动态规划相结合,在输出当前状态的最佳动作的同时极大地减少了计算量,因此成为开放环境下众多领域智能系统的关键通用方法.但由于计算资源匮乏或者计算成...
详细信息
蒙特卡洛树搜索(Monte Carlo tree search, MCTS)将强化学习的反馈优化与生长树的动态规划相结合,在输出当前状态的最佳动作的同时极大地减少了计算量,因此成为开放环境下众多领域智能系统的关键通用方法.但由于计算资源匮乏或者计算成本昂贵等原因,完全充分地对树结构进行搜索是难以实现的,因此在有限的预算下高效合理地分配计算资源从而获得当前状态下的最优动作是目前研究的一个重要问题.现有大多数算法仅以识别准确率作为性能指标,通过实验对比验证算法性能,缺少对算法的识别误差和影响因素的分析,从而降低了算法的可信性和可解释性.针对该问题,选择基础核心的2名玩家、完全信息、零和博弈场景,提出了固定预算设定下MCTS抽象模型的最优行动识别算法DLU——基于相对熵置信区间的纯探索(relative entropy confidence interval based pure exploration).首先提出了基于相对熵置信区间的估值方法对叶子节点胜率进行估计,其可以从底层提高树节点估值准确性;其次给出了第1层节点值估计、最优节点选择策略以形成完整算法流程;然后推导了DLU算法的识别误差上界,并分析了算法性能的影响因素;最后在人造树模型和井字棋2种场景下验证算法性能.实验结果表明,在人造树模型上基于相对熵的算法类具有更高的准确度,且模型越复杂识别难度越高时,该算法类的性能优势越显著.在井字棋场景下,DLU算法能有效地识别最优动作.
暂无评论