互联网和智能设备的高速发展为人们的日常生活带来极大便利,如人们在网上浏览信息、互动交友、购物、娱乐等。这些活动会产生海量的数据,而直接发布未经处理的数据将会导致个体或组织敏感信息泄露,因此,需要在数据发布之前进行处理。差分隐私是现有解决隐私泄露问题的有效方法之一,但存在数据效用低等问题。为提高数据可用性并保护个体隐私,通常情况下将匿名化与差分隐私相结合,协同发挥作用。然而,大部分处理方法没有考虑属性之间存在部分依赖关系,侧重于将所有准标识符属性进行处理,造成算法时空复杂度高、数据效用低等。为更好解决差分隐私数据效用与隐私力度的平衡问题,本文研究使用微聚集和自组织映射(SOM)网络进行关联属性的差分隐私保护,分别称为DPPCA(Differential Privacy Protection of Correlations Attributes)和 SOMDP(Differential Privacy of SOM)。首先,详细阐述DPPCA模型的实现过程:针对数值型、非数值型、混合型三种不同类型的数据集,分别找出具有最大依赖关系的属性对;再对这些属性对进行微聚集,并要求每个簇规模大小为k(k>2),簇内敏感属性值有l(l数据效用。同时,从理论角度证明该模型的可行性。最后,本文通过实验论证两种模型的有效性与可用性,并对比分析两种方案的优缺点。结果表明,DPPCA更适用于实际场景,能较大程度减少实现差分隐私所需噪音,在Census和Adult数据集上可以将添加的噪声量降低11%,有效提高数据发布的效用;相比之下,SOMDP虽能提高数据效用,但适用场景局限性较大。未来的研究还需更多考虑大数据、大规模、大计算等实际情况,将是差分隐私研究上一个新的挑战。图13表5参68
暂无评论