版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201310330472.9
公 开 号:CN103366015B
代 理 人:柏尚春
代理机构:南京苏高专利商标事务所(普通合伙)
专利类型:授权发明
申 请 日:20160427
公 开 日:20130731
专利主分类号:G06F17/30(20060101)
关 键 词:聚集计算 读取 数据存储 数据索引 一列 添加 数据表存储 按行存储 查询方法 存储格式 倒排结构 海量数据 硬件成本 硬件资源 列数据 列文件 时间和 易扩展 最小值 求和 一种 计数 存储 查询 节省 灵活 创建 提升 公开 运用 访问 有效
摘 要:本发明公开了一种基于Hadoop的OLAP海量数据的存储与查询方法,在数据存储上,首先定义了新的列文件存储格式HCFile,然后给出了基于HCFile的数据表存储方法,在该方案中,读取一列数据只需读取若干HCFile,无需访问其它列数据,I/O效率与按行存储相比大大提高;同时,添加一列数据只需添加新的文件,极易扩展。在聚集计算上,首先创建了基于倒排结构的数据索引,然后利用MapReduce实现了OLAP的基本聚集计算,包括求和、最大/最小值和计数等,其它聚集计算可由这些基本聚集计算实现,得益于高效的数据索引,聚集计算的性能显著提升。本发明与现有技术相比,不仅有效的提高了数据存储与查询的效率,而且节省了硬件资源,降低了时间和硬件成本,同时,运用更方便灵活。