[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence t...
详细信息
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。
多任务学习利用不同任务之间的相似性辅助决策,与单任务学习相比,多任务学习能够利用更多的信息,从而可以弥补单任务学习信息利用不足的缺陷。本文选择NTCIR-ECA数据集中的中文和英文文本数据作为实验数据,以情感原因分析作为研究任务,提出了一种结合多任务学习和深度学习的模型MTDLM(multi-task deep learning model),实现不同语种下的情感原因分析。实验结果表明,在数据不平衡的情况下,MTDLM模型对英文语种的情感原因识别的最优F值为39%,优于单任务学习(F值为0)和传统基线模型(LR的F值为33%),从而验证了模型的有效性。
暂无评论