商业计算的普遍影响使得信息技术成为企业日常运作中不可缺少的一部分,许多企业通过各种渠道积累了大量的数据,有效利用这些数据便可以展开重要的研究。作为IT服务企业最需要的数据分析工具—数据挖掘,为研究者和决策者们提供一种揭示隐藏的信息和知识的技术,该技术克服了应对新型数据集的局限性,很快成为学者们用来挖掘数据信息的重要工具。但是,在当今的数字化时代隐私泄露事件越演越烈,非法牟利组织会在用户不知情的情况下发布或滥用个人隐私信息。为了在发现知识过程中达到隐私安全性的目标及促进挖掘技术的发展,学者们提出隐私保护数据挖掘(Privacy-preserving Data Mining,PPDM)概念,其研究内容是在保护用户敏感信息的情况下对数据提取事先未知、有价值的信息。作为数据挖掘的重要任务—聚类分析,不仅在医学、生物学及金融学等领域有许多实际的应用,而且还是处理数据汇总等问题的出发点,吸引了不少莘莘学子投身其中。当涉及到隐私保护聚类算法时,相关研究仍然有限,本文将以k-中心点聚类算法为研究对象,结合差分隐私模型提出DPk-medoids聚类算法,实现在隐私保护模型下的聚类分析,并针对划分结果的低可用性等问题提出一种有效的解决方法,具体研究内容如下:(1)对隐私保护模型及聚类的相关基础知识展开详细分析。主要分为以下两点:①概述论文的选题背景及研究意义,分析隐私保护和PPDM的国内外研究现状,同时使用文献分析工具Citespace对该领域做出主要贡献的国家与机构进行探讨;②阐述了隐私保护和聚类技术的相关理论与概念,对差分隐私保护、误差隐私保护模型和加噪技术的定义进行详细的介绍,重点分析了基于隐私保护的聚类算法的性能评价函数,为后续章节算法提出及实验分析提供了基础理论支持。(2)提出了在差分隐私模型下的DPk-medoids的聚类算法。为了混淆真实数据值该算法使用拉普拉斯机制进行加噪,实现了对用户敏感信息的保护,并证明了添加拉普拉斯过程是满足差分隐私定义。在UCI的数据集进行模拟实验表明:①该聚类算法可以适应规模、维数不同的数据集,并在一定程度上实现了用户敏感信息不被泄露的安全性,②确保聚类结果的可用性。(3)提出了 EPPk-medoids的聚类算法。该算法结合误差隐私保护,使用自助抽样法对用户数据进行隐私保护,并给出了在隐私保护模型下聚类分析的攻击模型。通过UCI数据集与构造的数据集上的实验结果不难看出,EPPk-medoids算法能够满足数据的安全性与聚类结果可用性需求的约束条件,相比于DPk-medoids聚类算法,EPPk-medoids算法在隐私保护程度不变的情况下聚类结果的性能被提高,并且该算法加入噪声值较小,提高了对数据聚类分析的准确性。
暂无评论