目的 近年来,Transformer跟踪器取得突破性的进展,其中自注意力机制发挥了重要作用。当前,自注意力机制中独立关联计算易导致权重不明显现象,限制了跟踪方法性能。为此,提出了一种融合上下文感知注意力的Transformer目标跟踪方法。方法 首先,引入SwinTransformer(hierarchical vision Transformer using shifted windows)以提取视觉特征,利用跨尺度策略整合深层与浅层的特征信息,提高网络对复杂场景中目标表征能力。其次,构建了基于上下文感知注意力的编解码器,充分融合模板特征和搜索特征。上下文感知注意力使用嵌套注意计算,加入分配权重的目标掩码,可有效抑制由相关性计算不准确导致的噪声。最后,使用角点预测头估计目标边界框,通过相似度分数结果更新模板图像。结果 在TrackingNet(large-scale object tracking dataset)、LaSOT(large-scale single object tracking)和GOT-10K(generic object tracking benchmark)等多个公开数据集上开展大量测试,本文方法均取得了优异性能。在GOT-10K上平均重叠率达到73.9%,在所有对比方法中排在第1位;在LaSOT上的AUC(area under curve)得分和精准度为0.687、0.749,与性能第2的ToMP(transforming model prediction for tracking)相比分别提高了1.1%和2.7%;在TrackingNet上的AUC得分和精准度为0.831、0.807,较第2名分别高出0.8%和0.3%。结论 所提方法利用上下文感知注意力聚焦特征序列中的目标信息,提高了向量交互的精确性,可有效应对快速运动、相似物干扰等问题,提升了跟踪性能。
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating kn...
详细信息
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。
暂无评论