随着科技的进步,信息技术的发展日新月异,特别是互联网的发展,促成人类生活的改变,从2006年Amazon公司发布AWS系统到2007年IBM和谷歌公司提出云计算的概念以来,云计算已经逐步走入人们的生活当中,使得计算资源如同消费水电般被人们以按需付费的形式使用成为可能。
众所周知,当今社会信息量的爆炸式增长使人们对于存储量的需求越来越大,也为云存储发展提供了契机,成为最快为大家所接受的一种云服务形式。云存储用户范围从最初的互联网行业扩大到企业、个人应用等多个领域。服务规模的扩大为云存储系统运营和维护带来了诸多挑战:如数据存储的费用、可靠性和可用性等。云存储的基础设施需要专门为存储海量数据而设计,并需要不断扩容,随着规模的不断扩大维护数据可靠性和可用性的难度也随之增加。同时作为云存储服务的使用者,无论企业或者个人,会在将数据移植到云端前综合考虑权衡各种因素,评价各项指标和性能,例如移植代价、服务质量、数据的可获得性,特别是后续持续使用的开销等,务必通过严格的评估才能做出正确合理的决定。
针对目前云存储提供商中,特别是公用云存储平台的性能瓶颈,以及云服务提供商和使用者对于工作负载开销的预估性不足等问题,本论文系统研究了云存储中服务质量的若干关键问题,重点考虑公有云平台的性能稳定性、数据可获得性、云存储系统的可靠性以及其资源调度策略等主题。此外,随着越来越多的工作负载借助于云计算平台来完成,对于Infrastructure as a Service (IaaS)提供商来说,一个很大的挑战就在于如何进行精确的成本核算并向租用其平台的Software as a Service (SaaS)用户收费,即如何用一个可靠并智能的模型去相对正确地估算负载所消耗的成本并制定合理的价格策略。
针对上述的问题和挑战,本文的主要贡献如下:提出一种基于混合公有云存储的优化结构—CloudMW, CloudMW针对公有云存储平台中,存储性能稳定度不足及对数据共享支持度不够等问题给出了优化改进方案,通过借鉴RAID系统中复制和分块的思想,将数据条带化放置到云端,并利用中间件技术实现了数据的共享和性能的优化,实验结果证明CloudMW能很好地维护系统的稳定性,并支持数据共享且在线服务性能得到保障。
当前将用于本地存储或网络系统可靠性的纠错码技术引入到分布式的云存储环境成为趋势,以取代当前云存储系统中常用的多份副本可靠性策略。针对工作负载的多样性特点,深入云存储系统内部,本文提出了一种基于负载特征的云存储可靠性框架——CloudRAID,把工作负载的特征考虑到可靠性的保障机制选择中,通过定量化的评价模型,自适应地合理构建云存储可靠性策略,并且在HDFS中实现CloudRAID原型,以验证其有效性以及服务能力。
还特别关注云存储提供商的利润率,提出了一种云端自适应的利润优先的调度效用优化算法——CloudIo用于分布式云存储环境的I/O资源调度,该算法在保证云存储提供商服务能力的前提下,避免工作负载突发性导致的性能下降乃至停滞,在最大化满足服务水平目标的同时,把云存储提供商的利润考虑到调度算法中,通过实验证明本调度算法同其他调度算法相比能达到更好的负载均衡并使云存储提供商获得更高的利润率。
最后提出云环境中工作负载成本开销模型——CloudCoST,该模型具备较强的灵活性,既能将应用分配到更大的资源池中,也考虑了更优化的资源共享,并具有自适应性,即对应用分配方式的敏感度较低,能基于应用负载突发性对IT公司的不同应用创建突发过滤器,过滤掉那些因突发性太剧烈而使成本过高的应用,把这些应用移植到云端,此外能整体为IaaS供应商设计成本核算和价格生成模型,通过利用在实际IT公司中收集到的工作负载进行模型的验证,发现CloudCOST具备一定的鲁棒性,同时能根据市场的价格变化动态调节云平台的定价机制。
通过对上述云存储服务质量的若干关键问题研究,目标是能够为客户提供性能优良、可靠性高、负载均衡同时能节约成本的云存储生态系统。
云存储作为一种新兴的存储模式,以其低成本、高可靠、弹性和按需付费的特点,吸引了越来越多的企业和用户将数据放在云端。如何降低云存储中海量数据的存储开销成为一个重要的问题。在云存储中,数据之间可能存在依赖关系。例如,由于客户端分辨率和带宽等因素的差异,视频网站通常会将原视频文件按不同码率转码生成清晰度不同的视频文件。此时,原文件和转码后的文件之间就存在依赖关系。目前,基于数据依赖关系降低数据存储开销的方案是:通过算法决策数据是否需要存储。对于不存储的数据,当其收到访问请求时,先利用依赖关系生成数据,再提供访问服务。此时,系统的整体开销包含存储数据产生的存储开销和生成数据产生的计算开销。由于不存储的数据通常访问频率较低,因此其计算开销小于存储开销,使得系统的整体开销小于以往存储所有数据的存储开销。然而,现有方案在存储数据时,使用固定的多副本存储策略,没有进一步考虑数据存储策略可变的情况。也没有考虑当数据生成时间超出用户允许的响应延迟时间时,数据不可用的问题。针对现有研究的不足,论文提出了基于数据依赖关系的云存储优化算法。在保证数据可用性指标的前提下进一步降低系统整体开销。具体工作和创新点包括以下四个方面:(1)提出了一种基于数据依赖关系的低冗余数据存储模型(Data Dependency based Storage Model with Reduced Redundancy,D2SMR2)。与现有研究不同,该模型中数据的存储策略可变,降低了数据副本的冗余度,提出了新的数据整体开销计算模型,提出了数据可用性的约束条件。(2)提出了D2SMR2中数据可用性和数据生成时间的计算方式。与现有研究不同,D2SMR2中数据可用性考虑了用户允许的响应延迟时间和数据存放节点两个因素的影响。此外,在D2SMR2中数据的生成时间是一个随机变量,与数据直接或者间接依赖的数据故障状态有关。(3)提出了降低系统整体开销的数据存储策略决策算法。算法对新数据直接决策数据的存储策略,并在每个时间周期T结束时,根据周期T内数据的访问记录,更新依赖关系图中数据的存储策略。(4)搭建了基于数据依赖关系的云存储仿真系统,并将现有算法和本文提出算法进行仿真实验对比。相比以往仿真环境,系统能够记录数据的依赖关系,模拟节点故障、故障恢复、请求排队和数据生成等。基于该仿真系统,论文在随机生成依赖关系的数据和真实数据上分别进行仿真对比实验,验证和评估了论文提出的模型和算法。
暂无评论