咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于分词与索引技术的重复记录检测方法 收藏
一种基于分词与索引技术的重复记录检测方法

一种基于分词与索引技术的重复记录检测方法

专利申请号:CN201710338278.3

公 开 号:CN107133335A

发 明 人:谭火彬 林广艳 钱宇祥 张祎琼 

代 理 人:杨学明;顾炜

代理机构:11251 北京科迪生专利代理有限责任公司

专利类型:发明申请

申 请 日:20170905

公 开 日:20170515

专利主分类号:G06F17/30(20060101)

关 键 词:分词 记录集 集合 记录 候选记录 逆向索引 遍历 增量记录 正向 字段 存储检测结果 重复记录检测 删除记录 实时处理 索引技术 字段集合 重复 构建 算法 

摘      要:本发明涉及一种基于分词与索引技术的重复记录检测方法,获取待处理记录集,遍历待处理记录集,选取出待分词字段集合,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合;遍历待处理记录集的同时,根据获得的分词集合,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,获得候选记录对集合;采用记录重复性计算算法,对所有的候选记录对对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分