版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:华中师范大学信息管理学院武汉430079 上海财经大学统计与管理学院上海200433
出 版 物:《图书情报工作》 (Library and Information Service)
年 卷 期:2020年第64卷第10期
页 面:86-98页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金年度项目"融合知识图谱和深度学习的在线学术资源挖掘与推荐研究"(项目编号:19BTQ005) 中央高校基本科研业务费重大培育项目"基于语义网的在线健康信息的挖掘与推荐研究"(项目编号:CCNU19Z02004)研究成果之一
主 题:Word2vec 中文序列 序列比对 全局比对 文本相似度
摘 要:[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。