随着互联网技术的不断推广和人们参与时事积极性的提高,自媒体模式得到了快速发展。但是,自媒体平台审查能力欠缺以及创作者自律性不足导致自媒体行业畸形发展,自媒体作品抄袭现象时有发生。文本相似度检测可以细粒度地对文本进行比较,而且检测结果可以为作品抄袭提供实质性的量化指标。然而,传统的文本相似度检测技术应用于自媒体领域还存在不少问题。首先,由于自媒体稿件种类繁多、数量庞大,常用的文本相似度检测方法难以满足相似文本快速匹配的需求;其次,文本抄袭类型众多,传统方法无法感知自媒体稿件的深层语义信息,导致文本检测的精确率较低。针对上述问题,首先,本文提出一种基于改进simhash的相似自媒体文本匹配方法SWMTMM-S(Similar We Media Text Matching Method Based on simhash),用以从海量文本中快速召回相似文本集;然后,本文提出一种基于XLNet与Bi LSTM的文本相似度检测方法TSDA-XBL(Text Similarity Detection Method Based on XLNet and Bi LSTM),该方法可以细粒度分析待测文本对之间的相似程度;最后,借助统一内容标签(Uniform Content Label,UCL),本文设计了自媒体稿件特征的UCL标引方法以及面向自媒体稿件的相似度检测原型系统,并对上述方法进行验证。本文主要研究工作如下:(1)为提高海量自媒体文本中相似文本的匹配效率,本文提出一种基于改进simhash的相似自媒体文本匹配方法SWMTMM-S。首先,使用基于海量语料库训练的Skip-gram模型得到特征词的词向量表示,以代替传统simhash方法的词嵌入方式,从而增强特征词的语义信息;其次,基于自媒体文本特征,利用特征词的TF-IDF权重、词性权重和位置权重得到综合权重,对权重选择进行优化,以区别不同类型单词对文本表征的作用,从而丰富文本的语义信息;最后,基于上述步骤获得文本指纹并构建文本指纹索引便于快速匹配到相似的文本集。(2)为有效地检测目标文本与待测文本的深层语义相似度,本文提出一种基于XLNet与Bi LSTM的文本相似度检测方法TSDA-XBL。首先,该方法利用XLNet模型获得词向量表示,然后在此基础上使用Bi LSTM模型学习词语的双向依赖以获得基于句粒度的文本表示矩阵;同时,在词嵌入阶段引入对抗训练,以增强模型的鲁棒性;其次,利用自注意力层提取不同句子对文本表示的贡献度,生成文本的深层语义特征;最后,融合目标文本与相似文本的深层文本表示矩阵得到交互矩阵,并利用卷积神经网络对特征进行抽取,实现基于句粒度的文本相似度判定。(3)结合自媒体稿件的特点,本文设计了自媒体稿件特征的UCL标引方法以及面向自媒体稿件的相似度检测原型系统,并通过实验对SWMTMM-S方法和TSDA-XBL方法进行验证。实验结果表明,SWMTMM-S方法相比于传统的simhash算法具有更高召回率,可以在海量文本中快速检索到相似文本集;TSDA-XBL方法能够较好的提取文本的语义特征、鲁棒性较好,提高了文本相似度检测的准确率。
暂无评论