在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中往往存在多幅图像,且相互之间联系紧密,导致现有单图描述生成方法不适用于新闻图集描述生成。针对上述问题,本文提出了一种基于图文双向引导注意力(image and text bidirectional guidance attention,ITBGA)的新闻图集描述方法,以图集作为研究对象,并辅以对应的新闻文本作为背景知识,基于ITBGA分别实现粗、细两个粒度的跨模态信息交互,并通过指针网络辅助命名实体词生成。在本文构建的新闻图集数据集上进行了实验验证,结果表明ITBGA能有效提升描述文本的质量,在关键的CIDEr指标上达到了最优。
多项选择作为机器阅读理解中的一项重要任务,在自然语言处理(natural language processing,NLP)领域受到了广泛关注。由于数据中需要处理的文本长度不断增长,长文本多项选择成为了一项新的挑战。然而,现有的长文本处理方法容易丢失文本...
详细信息
多项选择作为机器阅读理解中的一项重要任务,在自然语言处理(natural language processing,NLP)领域受到了广泛关注。由于数据中需要处理的文本长度不断增长,长文本多项选择成为了一项新的挑战。然而,现有的长文本处理方法容易丢失文本中的有效信息,导致结果不准确。针对上述问题,提出了一种基于压缩与推理的长文本多项选择答题方法(Long Text Multiple Choice Answer Method Based on Compression and Reasoning,LTMCA),通过训练评判模型识别相关句子,将相关句拼接成短文本输入到推理模型进行推理。为了提高评判模型的精度,在评判模型中增加了文章与选项之间的交互以补充文章对选项的注意力,有针对性地进行相关语句识别,更加准确地完成多项选择答题任务。在本文构建的CLTMCA中文长文本多项选择数据集上进行了实验验证,结果表明本文方法能够有效地解决BERT在处理长文本多项选择任务时的限制问题,相比于其他方法,在各项评价指标上均取得了较高的提升。
暂无评论