版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201710338278.3
公 开 号:CN107133335A
代 理 人:杨学明;顾炜
代理机构:11251 北京科迪生专利代理有限责任公司
专利类型:发明申请
申 请 日:20170905
公 开 日:20170515
专利主分类号:G06F17/30(20060101)
关 键 词:分词 记录集 集合 记录 候选记录 逆向索引 遍历 增量记录 正向 字段 存储检测结果 重复记录检测 删除记录 实时处理 索引技术 字段集合 重复 构建 算法
摘 要:本发明涉及一种基于分词与索引技术的重复记录检测方法,获取待处理记录集,遍历待处理记录集,选取出待分词字段集合,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合;遍历待处理记录集的同时,根据获得的分词集合,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,获得候选记录对集合;采用记录重复性计算算法,对所有的候选记录对对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。