云存储有效地解决了当今时代大数据存储、访问的需求,开始为越来越多的用户提供服务。数据管理中,数据温度用于表示数据被访问的频率,通常称那些需要被计算节点频繁访问的在线类数据为热数据;而称访问频率较低、不需要实时访问的数据为冷数据。为了满足不同的存储服务要求,新一代的存储即服务(Storage As AService)云提供了不同的数据存储分层、分级选项,比如微软Azure云提供商提供了具有不同存储成本、访问延迟和访问成本特征的热访问层(简称热层)和冷访问层(简称冷层)的存储选择。在热层中存储数据会导致较高的存储成本,但同时会带来较低的访问成本和延迟,而冷层能够以较低的成本存储大量数据,从而提供较低的成本和较高的延迟。不同访问频率的数据存储到合适的层中能够很好地避免成本的浪费。一般来说,用户最初常将数据存储在热层,但是随着时间的消逝,数据的访问频率往往会发生变化,数据继续保持在热层的成本会相对存储在冷层较高。这时将数据转移到冷层,可以很好地利用冷层存储花费低的好处。然而,由于数据转移本身也是有费用的,如果用户将数据转移到冷层后数据访问再次变频繁,数据转移决策反而给用户带来了更多的花费。因此用户在进行转移决策时需要考虑数据的未来访问频率,而数据未来的长期访问频率很难精确预测。因此,本文在对双层云存储服务的定价标准与定价模型研究的基础上,对双层云存储服务成本进行建模,并提出了一个面向双层云存储服务的在线成本优化算法,来帮助云存储用户决定何时在冷层和热层之间转移数据对象以实现成本优化,而用户不需要事先知道未来的访问频率。本文从理论上证明了所提出的在线算法能够节省存储在双层云存储中的数据的存储成本。接下来,通过对哗哩哗哩上真实的视频数据实验以及大量的模拟实验,验证了我们提出的在线算法的有效性,并表明与总是将数据对象保持在某一层,它可以显著地节省成本。基于对那些访问频率变化较大的数据,我们提出的在线算法做出的决策有可能会出现错误。因此,我们进一步提出了基于预测的存储成本优化算法,通过实验表明,该算法进一步地节省了云存储成本。
基于边缘计算的内容分发网络(Content delivery network,简称CDN)是当前应用比较广泛的数据提供服务的网络结构,其中的服务器集群共享一个数据,相互之间可以通过网络传输数据,且任何服务器都可以接受用户的数据请求,并由请求的目标服务器对其做出响应。由于各个服务器缓存数据需要一定的成本,且服务器之间传输数据也需要一定的成本,因此CDN缓存调度问题的目标就是设计算法使得缓存调度成本尽可能接近甚至等于最优调度成本。各个服务器缓存数据所需成本可能由于性能、存储、租价等原因不尽相同,且相互之间的传输代价由于网络延时、物理距离等原因也不尽相同,且呈现缓存成本、传输成本越相近问题分析越容易的特点,因此根据成本结构,可将问题划分为缓存成本一致且传输成本一致的全同构模型、缓存成本不同而传输成本一致的半异构模型、缓存成本一致而传输成本不同的半异构模型以及缓存成本与传输成本均不一致的全异构模型。本文的研究正是基于缓存成本不同而传输成本一致的半异构模型开展了基于预测信息的在线算法的设计与分析。
首先,本文证明了针对前述模型的任意在线算法,无论是否包含预测信息,其竞争比严格大于1,即其调度成本都无法等同在同一输入下最优离线算法所产生的调度成本;其次本文设计了一种基于预测信息的在线算法Recaching with Prediction,融合本文设计的基于预测信息的预测调度分支和重缓存算法作为两个调度分支,根据实时计算的当前算法竞争比上界来选择调度分支以确保算法整体的竞争比在预期内;然后本文证明了所提在线算法Recaching with Prediction的竞争比为(?),即当预测误差不断趋近并直至变为0时,本文算法的竞争比下界是(?),而预测误差不断变大直至变为1时,本文算法的竞争比上界是(?),其中λ是服务器间传输成本,LBOPT是最优离线算法针对同一输入序列所需的调度成本下界,是请求的数量;最后本文设计了实验对理论结果进行了验证。
暂无评论