版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201810095569.9
公 开 号:CN108334596A
代 理 人:李斌
代理机构:44245 广州市华学知识产权代理有限公司
专利类型:发明申请
申 请 日:20180727
公 开 日:20180131
专利主分类号:G06F17/30(20060101)
关 键 词:迁移 分区 并行 关系数据 划分结果 任务决策 数据迁移 大数据 元数据 数据抽取过程 发送 倾斜问题 数据分布 信息创建 并行度 不均匀 抽取 保证
摘 要:本发明涉及一种面向大数据平台的海量关系数据高效并行迁移方法,包括以下步骤:输入迁移表名、划分列、并行度;迁移任务决策器从RDBMS中获取迁移表的元数据;根据迁移表的元数据对迁移表进行分区划分;计算划分的各分区的数据密度;判断各分区划分是否均匀;若分区划分均匀则将划分结果发送至Hadoop;若分区划分不均匀,则迁移任务决策器对分区进行重划分,并将新划分结果发送至Hadoop;Hadoop根据接收信息创建、执行数据迁移作业,实现数据从RDBMS高效并行迁移至HDFS、HBase。本发明提供的一种面向大数据平台的海量关系数据高效并行迁移方法设计科学合理,既能保证数据的高效抽取,又避免了数据抽取过程中的数据倾斜问题;还解决了数据迁移至HDFS后数据分布不均的问题。