咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种面向大数据平台的海量关系数据高效并行迁移方法 收藏
一种面向大数据平台的海量关系数据高效并行迁移方法

一种面向大数据平台的海量关系数据高效并行迁移方法

专利申请号:CN201810095569.9

公 开 号:CN108334596A

发 明 人:王博 刘波 林伟伟 

代 理 人:李斌

代理机构:44245 广州市华学知识产权代理有限公司

专利类型:发明申请

申 请 日:20180727

公 开 日:20180131

专利主分类号:G06F17/30(20060101)

关 键 词:迁移 分区 并行 关系数据 划分结果 任务决策 数据迁移 大数据 元数据 数据抽取过程 发送 倾斜问题 数据分布 信息创建 并行度 不均匀 抽取 保证 

摘      要:本发明涉及一种面向大数据平台的海量关系数据高效并行迁移方法,包括以下步骤:输入迁移表名、划分列、并行度;迁移任务决策器从RDBMS中获取迁移表的元数据;根据迁移表的元数据对迁移表进行分区划分;计算划分的各分区的数据密度;判断各分区划分是否均匀;若分区划分均匀则将划分结果发送至Hadoop;若分区划分不均匀,则迁移任务决策器对分区进行重划分,并将新划分结果发送至Hadoop;Hadoop根据接收信息创建、执行数据迁移作业,实现数据从RDBMS高效并行迁移至HDFS、HBase。本发明提供的一种面向大数据平台的海量关系数据高效并行迁移方法设计科学合理,既能保证数据的高效抽取,又避免了数据抽取过程中的数据倾斜问题;还解决了数据迁移至HDFS后数据分布不均的问题。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分