[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence t...
详细信息
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。
基于社交理论的短文本情感分析是文本情感分析的重要课题之一。目前短文本的情感研究只发现了用户之间简单的朋友关系,未能对用户之间情感的传播性进行更为深入的挖掘。针对上述问题,构建了一种新的情感计分方法(statistics emotional lexicon method,SELM),按照用户粉丝数量的多少,将用户分为明星用户和普通用户,并结合当前用户关注的其他用户数量与该用户粉丝数量的比值,计算出一个社交关系影响分数,用该影响分数和SentiWordNet情感词典一起为推特短文本计算情感得分。同时,改进处理噪声和短文本的社会学方法(sociological approach to handling noisy and short texts,SANT),提出增强型SANT(ESANT)模型。与SANT不同的是,在对"信息-信息关系"建模时,增强了用户之间的社交关系,以表示更为深层次的情感传播性。在训练ESANT模型过程中,采用合成少数类的过抽样技术(synthetic minority oversampling technique,SMOTE)解决实验数据集上类别失衡问题。最后,使用SELM计分方法将数据集进行划分,重新训练ESANT模型。实验证明,结合SELM计分方法和ESANT模型能提升情感分类的效果。
暂无评论