林地管理是森林资源管理的基础,国家为了进一步提升森林资源的整体监测和管理水平,在《全国林地保护利用规划纲要(2010-2020年)》的指导下,开展全国林地“一张图”建设。其中整合了近期高分辨率遥感数据、林地落界数据、基础地理数据以及林业相关数据,形成了涉及各级(县、省、国家)微观或至宏观管理与应用需要的多尺度多业务类型的海量数据,仅林地落界小班数据已达6738.88万条。随着林地数据呈指数增长,面临体量如此巨大、数据类型繁多、高速变化、价值密度低的空间数据,当前系统中采用的数据模型和统计技术对支持海量数据多维快速统计的局限性表现得越来越突出。因此本文在分布式并行环境下,对林地落界数据统计的数据模型和快速统计技术进行研究。本文针对林地“一张图”系统中面临的海量数据动态统计的问题,以多维数据模型、并行计算、数据挖掘等理论和技术为基础,通过对多维统计模型、并行数据优化部署、并行统计计算、统计结果汇集与缓存管理这四个关键技术的研究,形成了一个高效、快速的森林资源数据统计技术体系,并通过设计实验对相关技术点进行验证,实验结果表明文章提出的数据模型和技术适合林地落界数据多维动态统计的需求。本文所做研究如下:(1)林地落界统计应用需求和数据特点分析,提出了分布式并行环境下林地落界快速统计技术体系,并对体系中涉及的多维统计模型、并行数据优化部署、并行统计计算、统计结果汇集与缓存管理内容给出了解决思路。(2)林地落界数据多维统计模型研究。通过对林地落界数据特点和统计尺度分析,建立基于星型模型的林地落界数据立方体,构建因子组合模型,并在基础上结合统计尺度,构建因子组合统计模型,实现不同尺度下的林地落界数据多维属性统计和空间统计。(3)林地落界数据优化部署研究。通过对林地落界统计粒度的划分与分配、索引体系研究,解决统计粒度在分布式并行环境下的管理问题。对林地落界统计任务的内涵进行分析,确定把维表在各节点复制,对林地落界事实表进行划分的数据划分思路。结合应用场景的特点,提出了基于Hilbert空间填充曲线的动态网格空间数据划分算法,从而确定林地落界统计粒度的大小。在此基础上,提出了基于任务量和图着色理论的空间数据部署方案。并基于统计特征,提出了基于GTMPR-tree(Graphy-Coloring theory based Multi-tiers Parallel R-tree)的多层索引体系。并通过测试表明以县为单位的空间数据粒度存储单位更适合并行快速统计的需求,且通过变异系数(C.V)衡量通过任务量改进的基于图着色的空间部署方案,结果表明改进的算法使得数据在各节点的分布更为均衡,均衡度提高了2倍多。(4)林地落界数据并行统计计算研究。通过给出统计任务粒度的大小,并行统计计算模型,以及提出基于GTMPR-tree的任务划分模型,解决了统计任务资源调度的问题。(5)统计结果汇集和缓存管理研究。针对影响统计效率的统计结果和缓存,给出了基于静态缓存表和动态语义缓存的二级缓存机构和混合缓存管理策略,进一步提出了基于相关性分析的缓存优化模型和基于评价机制的统计更新模型,来优化统计缓存。通过实验给出了潜在的有价值的因子组合。最后通过设计实验,从整体性能上测试分布式并行环境下统计效率,实验结果表明采用文中提出的关键技术,统计性能得到了显著的提升。
暂无评论