非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据,比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示,近5~10年的数据量将呈指数级增长,而其中的非结构化数据占到当前数字信息总量的70%85%。面对如此庞大的数据量和信息量,如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。(非结构化)数据管理可以简单化为3个目标,即:实现数据的"存得下、管得了、用的上"。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理(Unstructured Data Management,UDM)研究小组基于"自由表"数据模型和BUD(Bank of Unstructured Data)参考体系模型在这一个问题上所作的初步研究与探索工作,以及在原型平台myBUD中的若干存储管理技术。
面对日益增长的非结构化数据管理需求,实现了基于"自由表"数据模型和BUD(bank of unstructured data)参考体系模型的非结构化数据管理平台MyBUD系统。提出了一种能够根据非结构化数据的类型和访问特点自适应地选择分布式存储...
详细信息
面对日益增长的非结构化数据管理需求,实现了基于"自由表"数据模型和BUD(bank of unstructured data)参考体系模型的非结构化数据管理平台MyBUD系统。提出了一种能够根据非结构化数据的类型和访问特点自适应地选择分布式存储子系统的方法,同时也对MyBUD进行了TPCC测试和非结构化数据存取实验。结果表明,这种自适应的数据存储方法为MyBUD系统提供了高效的可扩展存储层,为采用数据库方法实现对结构化和非结构化数据统一管理的进一步研究工作奠定了基础。
暂无评论