咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >云计算环境下海量矢量数据的高效存储与并行叠置分析 收藏
云计算环境下海量矢量数据的高效存储与并行叠置分析

云计算环境下海量矢量数据的高效存储与并行叠置分析

作     者:蒋元义 

作者单位:昆明理工大学 

学位级别:硕士

导师姓名:金宝轩;左小清

授予年度:2020年

学科分类:081603[工学-地图制图学与地理信息工程] 081802[工学-地球探测与信息技术] 07[理学] 08[工学] 070503[理学-地图学与地理信息系统] 0818[工学-地质资源与地质工程] 0705[理学-地理学] 0816[工学-测绘科学与技术] 

主      题:云计算环境 海量矢量数据 分布式存储 高性能空间分析 负载均衡技术 

摘      要:随着越来越多大科学装置的建设和重大科学实验的开展,科学研究进入到一个前所未有的大数据时代,大数据时代产生的空间大数据集对海量矢量数据的高效存储与计算提出了诸多挑战。传统的解决方案是采用关系型数据库与Arc SDE协同管理的模式,该模式将数据存储在单台机器上,这在很大程度上限制了数据的存储能力和计算能力。云计算环境下提供的分布式存储与高性能并行计算技术是一种有效的解决方案。基于云计算的这种特性,论文从云计算环境下如何对海量矢量数据进行高效存储与高性能空间分析角度展开研究。重点研究了海量矢量数据在Hadoop云平台下的存储模型、索引构建、数据快速导入、快速查询以及高性能空间分析中的并行叠置分析技术。具体围绕以下几个方面展开:(1)首先,论文在阐述该项目的研究背景及立项依据的基础上,综述了相关领域的研究进展,即地理空间大数据的存储技术、地理空间分析算法并行化技术以及地理空间大数据的负载均衡技术,全面分析了当前国内外对地理空间大数据在云环境下的分布式存储与高性能并行计算技术的研究进展与应用。另外,论文对研究中的相关技术理论进行了详细概述,为论文后续的研究提供了基础理论与技术支持。(2)其次,基于Hadoop云平台下的分布式非关系型数据库HBase构建了海量矢量数据的组织与存储策略。利用Hilbert空间填充曲线优秀的空间聚集性,对空间范围内的格网进行Hilbert曲线填充;结合空间要素对象所在格网的Hilbert编码与图层编号,设计了满足分布式非关系型数据库HBase存储规则的Row Key值;根据矢量数据在HBase下的存储规则特征,确定了该规则下的矢量数据存储表、二级索引表结构以及基于Hilbert编码设计了一种并行区域查询算方法。另外还构建了一种基于Spark的矢量数据并行导入方法。(3)再次,研究了Hadoop云平台下高性能并行空间分析中负载均衡策略,并以叠置分析算法为例,提出了一种顾及数据计算复杂度的矢量空间数据划分方法。针对高性能并行空间分析中传统矢量空间数据划分方法的划分结果不能反映实际计算量,容易导致数据倾斜的问题,论文从矢量空间数据结构特征及空间分析算法特征角度思考,研究数据密集型和计算密集型空间分析算法的计算量复杂度模型,用以指导矢量空间数据的均衡划分;通过分析不同算法类型的原理与特征,筛选出影响算法计算效率的影响指数,构建矢量空间数据计算复杂度模型;基于该复杂度模型设计了一种高性能并行空间分析数据划分策略。(4)最后,基于Hadoop云平台设计并实现了一个海量矢量数据存储与计算原型系统,实现了海量矢量数据的分布式存储与并行叠置分析。并基于原型系统通过实验验证了本文提出的矢量数据并行导入、并行查询以及顾及计算复杂度的数据划分策略的合理性性及有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分