当今社会,数据作为新兴的生产要素,正在深刻影响着人民的生活方式与国家经济社会的发展。与此同时,数据的深度融合与应用衍生出的数据安全威胁和隐私保护问题,也越来越引起国家与社会大众的关注。2020年7月,第十三届全国人民代表大会发布了《中华人民共和国数据安全法(草案)》,填补了我国数据安全领域一直以来的立法空白,也彰显出国家对数据安全与数据隐私保护的关注和重视。随着全球定位系统(GPS:,Global Position System)和全球移动通信系统(GMS,Global System for Mobile Communication)的发展,人们所在的地理位置被越来越多地记录与保存,产生了大量的位置数据。以位置数据为首的移动大数据在路线导航、兴趣点推荐、城市规划、交通管理等许多方面都有广泛的应用,极大地提升了人民的生活质量和国家的治理水平。为了更好地利用移动数据,深入探索其中的价值,移动数据的收集商在获得用户许可的前提下可能会将位置数据发布。为了避免隐私泄露,数据收集商在发布位置数据时会将对应的用户标识信息脱敏或者直接去除。但是已有研究表明,即使在发布时去除用户标识信息,隐私攻击者仍可以通过对比发布数据和自有数据的重叠部分推测出数据背后的真实用户,脱敏数据仍存在严重的隐私威胁。因此,位置数据发布之前一般还需经过相关隐私保护方法的处理,其中最常用方法是对原始位置数据进行模糊化处理。位置模糊化的主要思想是用更低精度的、泛化的位置代替原始的精确位置。为了在保证数据隐私的同时保留数据效用,随意地模糊化是不可取的。因此,如何设计出一个有效的位置模糊化方法成为了研究者们关注的重点。先前的研究中,移动数据的位置模糊主要从两个角度出发:位置和轨迹。基于位置的方法将研究重点放在单个位置点的隐私保护效果,忽略了位置移动的序列关系。基于轨迹的方法将轨迹内位置的时空相关性纳入考虑,保护整条轨迹的隐私,但是往往需要高昂的计算成本。由此,本文创新地提出了一个折中的思路:在基于位置的模糊化方法中加入对位置间时空移动模式的保护,设计出一种面向移动数据安全发布的位置模糊化方法。首先,本文设计指标对位置移动时空序列关系的隐私进行衡量。具体地,统计位置序列中某位置与其所有可能的下一位置,称为移动模式。计算不同移动模式出现的数量,并基于香农信息熵的思路,改进设计出一步流量熵指标,对位置移动模式的不确定程度进行衡量。其次,本文设计出了一个基于k-means聚类的位置模糊化方法——“匿名地图”算法。匿名地图算法在保证位置隐私约束的同时,也能对位置的移动模式的隐私性加以改善。并且,根据位置隐私问题场景的特点,本文对匿名地图算法的初始化簇中心和更新簇中心两个组件进行改进。设计出兼顾簇中心间距离和周围位置密度的密度k-means++初始化方法,和使用区域最大、最小经纬度的均值作为新簇中心的更新方法。最后,本文在真实数据集上进行了充分的实验以验证模型的有效性和稳健性。实验中,本文分别对匿名地图组件的运行效率和匿名地图算法的隐私保护效果进行衡量,并设置了不同自定义参数水平下的对比实验。实验结果表明,在不同的参数设置下,本文提出的方法在隐私保护效果与运行效率方面都能明显优于基准模型。
暂无评论