版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:北京市科学技术情报研究所北京100044
出 版 物:《信息技术与信息化》 (Information Technology and Informatization)
年 卷 期:2016年第7期
页 面:49-52页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:北京市科学技术情报研究所"萌芽"计划(所自立课题)--面向政务系统的文本相似度研究
主 题:文本相似度算法 TF-IDF 向量空间 编辑距离 电子政务
摘 要:为了更好的提高政务工作的生产效率,提出了编辑距离、改进的空间向量模型以及特征词库相结合的一种改进的文本相似度算法模型。改进算法充分考虑了政务文本的特征,以及特征词分类及权重影响,有效降低了计算的维度、缩小了计算的范围,大大提高了应用系统中检索数据返回的速率。系统运行结果也表明了改进的文本相似度算法在检测相似政务文本方面效果和性能有显著提高。