版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201611110520.3
公 开 号:CN108153793A
代 理 人:徐国文
代理机构:11271 北京安博达知识产权代理有限公司
专利类型:发明申请
申 请 日:20180612
公 开 日:20161202
专利主分类号:G06F17/30(20060101)
关 键 词:原始数据处理 数据记录 数据收集单元 集群存储器 客户端用户 数据管理器 原始数据源 删除处理 选择数据 用户体验 原始数据 重复处理 准确度 客户端 相似度 置信度 重复 工作量 自动化 记录 矛盾
摘 要:本发明涉及一种原始数据处理方法,该方法应用于原始数据处理系统中,该系统包括多个原始数据源,多个数据收集单元,集群存储器,原始数据处理平台,数据管理器,客户端;该原始数据处理方法能够对原始数据进行去重复,去矛盾,去不合理处理,基于数据记录相似度进行数据记录的去重复处理,基于置信度选择数据记录作删除处理,提高了数据去重复的准确度和效率,减少了人为参与的工作量,提高了自动化程度,从而提高了客户端用户的用户体验。