版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211112500.5
公 开 号:CN115185981B
代 理 人:武汉泰山北斗专利代理事务所(特殊普通合伙)董佳佳
代理机构:武汉泰山北斗专利代理事务所(特殊普通合伙)
专利类型:发明专利
申 请 日:20221125
公 开 日:20220914
专利主分类号:G06F16/242
关 键 词:质检 承载 分布式计算框架 加载数据 空闲内存 空闲指数 内存模式 数据治理 质检报告 持久化 初始化 计算机 单台 内存 提示 输出
摘 要:本发明适用于数据治理技术领域,提供一种顾及超大表的数据查重方法及装置,所述方法包括:初始化加载数据质检参数;通过空闲指数PNum判断计算机空闲内存是否能承载当前数据查重任务;如果PNum1则给出异常提示;如果PNum=1,则进入内存模式质检;如果PNum1,则进入持久化模式质检;输出查重质检报告。本发明根据当前内存的状态,判断是否能承载当前数据查重任务,采用不同质检方案,无需采用分布式计算框架,成本低,单台普通计算机即可完成超大表的数据查重,执行效率高。