近年来,在线社交网络(Online Social Network,OSN)取得了巨大成功,在全球范围内拥有数十亿用户。通过OSN,用户可以结交新的朋友或与自己的朋友共享信息。目前比较流行的商用OSN包括Facebook,Twitter,人人网,新浪微博,腾讯微信等,它们都...
详细信息
近年来,在线社交网络(Online Social Network,OSN)取得了巨大成功,在全球范围内拥有数十亿用户。通过OSN,用户可以结交新的朋友或与自己的朋友共享信息。目前比较流行的商用OSN包括Facebook,Twitter,人人网,新浪微博,腾讯微信等,它们都采用了集中式数据存储架构,所有的用户数据集中存储到服务提供商所运维的服务器上。服务提供商可以使用和分析这些数据,甚至直接将之出售给第三方,破坏了用户隐私。因此,这种集中式在线社交网络(Centralized Online Social Network,COSN)中存在严重的用户数据隐私泄露问题,已经引起了广泛的关注。在此背景下,分布式在线社交网络(Decentralized Online Social Network,DOSN)被提出来解决上述用户数据隐私泄露问题。尽管DOSN还不如COSN流行和成熟,但是业界对它的研究非常活跃,正处于快速发展时期。在DOSN中,为了保护隐私,用户数据绕过服务器直接在朋友圈内存储和转发。DOSN虽然能防止服务提供商泄露用户隐私数据,但是存在数据可用性低下的问题:当某一用户处于离线状态时,其它用户不能访问存储在该离线用户处的数据。为了在数据隐私保护约束条件下提高数据可用性,必须设计适用于DOSN场景的数据存储方案及相应的优化策略,这是目前DOSN研究中的最大挑战之一。DOSN具有如下特点:1)用户动态性高;2)接入终端存储资源有限;3)大部分用户的朋友圈不大;4)社交数据以小数据为主,且很少修改。本文通过深入研究已有的DOSN数据存储技术和存储优化相关工作发现,已有工作主要关注用户动态性,而忽略了其它特点对数据存储优化目标的影响。针对现有工作的不足,本文系统地研究了以数据隐私保护约束下提高数据可用性为主要目标的DOSN数据存储和存储优化问题,主要包括如下几个方面:1.存储容量敏感的DOSN数据可用性建模与分析已有的DOSN数据存储方案通常假设朋友总是能为用户提供足够的存储容量保存用户发布的数据,然而,这个假设在DOSN中是不合适的。为了保证不泄露用户隐私,未受保护的用户隐私数据只能存储在朋友圈内。而如下原因将导致朋友圈内的总存储容量有限:1)在线朋友数量有限;2)DOSN用户通常使用移动智能设备,它们的存储容量通常有限。直观地,有限的朋友圈总存储容量降低了数据可用性。但是仅仅知道这一粗略结论是不够的,我们还希望获悉存储容量对数据可用性的影响程度,以确定是否有必要进行数据存储优化。因此,在重新设计DOSN数据存储方案之前,有必要定量分析朋友圈可贡献的总存储容量与所能达到的数据可用性之间的关系,这是本文要解决的首要问题。针对此问题,本文提出了一个存储容量敏感的数据可用性模型,深入分析了朋友圈可贡献的总存储容量与所能达到的数据可用性之间的定量关系。此外,朋友圈内的在线朋友高度动态变化,影响了朋友圈可贡献的总存储容量,进而导致数据可用性也高度动态变化。针对这一问题,本文通过预测朋友圈实时总存储容量预测实时数据可用性,进一步研究了朋友圈总存储容量与所能达到数据可用性之间的动态变化关系。最后,本文还进行了大量实验,验证了存储容量敏感的数据可用性模型的有效性。基于存储容量敏感的数据可用性模型,给定预期数据可用性可以确定朋友圈所需的最小总存储容量,进而可以确定每个朋友所需贡献的平均最小存储容量,为应用程序存储容量的分配提供依据;反之,给定朋友圈总存储容量,可以确定朋友圈所能达到的最大数据可用性,从而可以确定预期数据可用性是否能够得到满足,并指导下一步的数据存储方案设计。2.云辅助的dosn数据存储方案cadros如上文所述,dosn中,为了保证用户隐私不被泄露,数据在未受保护的情况下只能冗余存储在朋友圈内。但是dosn是一个高度动态的网络,用户可以随时添加和删除朋友,且朋友可以随时上线和下线,所以朋友圈内在线朋友集合和所贡献的总存储容量是有限且动态变化的。如果仅依赖朋友圈冗余存储用户数据,将不能获得较高的数据可用性。以数据隐私保护约束下提高数据可用性为主要目标,设计适用于dosn的数据存储方案是本文要解决的第二个关键问题。针对该问题,本文基于存储容量敏感的数据可用性模型,提出了一种云辅助的dosn数据存储方案cadros,引入云服务器提高数据可用性。当朋友圈不能满足数据存储需求时,将多余数据用纠删码技术分片编码后存储到云服务器中,且保证云服务器中存储的数据片段数量不超过恢复原始数据所需要的数据片段数量,以防止云服务提供商获得原始数据,从而保护了用户数据隐私。本文定量研究了cadros的数据存储能力,讨论了cadros的数据可用性,从理论上证明了cadros方案的可行性和有效性;同时还建立了朋友圈内朋友动态行为的概率模型,通过预测朋友圈将来的数据
数据对于个人、公司、国家至关重要。但存储起来的数据会面临机密性、可用性等的威胁。各大知名互联网公司也时而发生数据泄露、数据不可用等安全事件。这些与我们生活息息相关的安全事件,使得研究如何安全的存储数据成为学术界和产业界关注的重点。分散存储技术则是用来保证数据机密性和可用性的主流技术。 已有分散存储方案虽然在效率、存储开销等方面取得了很好的成果。但是已有研究都是针对具体方案的研究,缺乏形式化研究,因此已有的分散存储方案没有安全性证明。此外,已有方案不支持高效的数据动态操作,而在时下流行的云存储中用户的数据常常被修改。针对已有研究中存在的问题,我们从以下两方面展开研究。 第一,分散存储形式化研究。已有分散存储的研究都是针对特定方案的设计和分析,缺乏统一的形式化定义。因此已有方案没有安全性证明。这也使得人们在实际应用方案时对方案做一些看似无关紧要的修改,实际对方案的安全性影响是未知的。鉴于此,我们给出了分散存储的形式化定义,即新的密码学原语DE(dispersal encryption)。针对人们在实际构建分散存储方案时对安全性和效率的需求,我们提出了构建DE方案的两种常用模式:先加密后分散EtD(encrypt-then-disperse)和先分散后加密DtE(disperse-then-encrypt)。然后我们从机密性、完整性和效率对EtD和DtE进行分析。最后我们将已有代表方案看成DE的实例,并给出了这些实例的安全性证明。 第二,分散存储方案的设计。已有方案为了保护数据的机密性,使用如AONT、AES等技术处理数据。这就使得数据的代数结构被破坏,从而不能支持高效的数据动态操作。鉴于此,我们分别基于LWE(learning with errors problem)和Ring-LWE(ring learning with errors problem)构建了两个分散存储方案SWE(storage with errors)和LSWE(lightweight storage with errors)。SWE利用LWE同时保证了数据的机密性和可用性。LSWE利用Ring-LWE保证了数据的机密性,利用基于NTT(number theoretic transform)设计的高效系统纠删码SNTT保证了数据的可用性。为了进一步提高SWE和LSWE的编码速度和解码速度,我们用NTT和INTT(inverse number theoretic transform)加速方案中涉及的大数乘法运算和多项式乘法运算。由于SWE和LSWE具有加法同态性,SWE和LSWE支持安全且高效的数据动态操作。在合适的参数设置下,SWE和LSWE的编码速度和解码速度优于已有代表方案。此外,在我们的安全假设下,SWE和LSWE的安全性优于已有代表方案且没有增加存储开销。
暂无评论