版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:福州大学
学位级别:硕士
导师姓名:杨旸
授予年度:2018年
学科分类:0839[工学-网络空间安全] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:云计算安全 数据隐私 可搜索加密 中文模糊搜索 语义相似度
摘 要:云服务器提供了快速便捷的数据存取服务,将数据上传到云端,可减少用户的数据存储和维护开销。为了保护数据隐私,数据拥有者可将数据加密后再上传到云端。但用户无法直接在密文中进行搜索。可搜索加密技术主要解决在云服务器不完全可信的情况下,支持用户在密文上进行搜索。本文针对现有可搜索加密方案的不足,提出了新型的可搜索加密方案,主要研究内容如下:(1)针对目前可搜索加密方案中,查询效率低、精确性不足等问题,提出快速多关键词语义排序搜索的基础、增强方案。在基础方案中,首次引入域加权评分来区分不同域中关键词的权重差异;结合语义相似度、域加权评分和相关度分数,设计了三因子排序方法,提高搜索精确性;设计了向量分块标记算法、标记向量匹配算法,有效过滤大量无关文档,减少计算无关文档相关度分数和排序的时间,提高搜索效率。在增强方案中额外设计了向量分段加密算法,将文档向量分段,分别与对应维度的矩阵相乘,减少了构建索引时间。理论分析和实验结果表明:基础方案和增强方案均实现了快速的多关键词语义排序搜索,基础方案提高了查询效率和精确性,增强方案在延续上述优势的同时,减少了索引创建时间。(2)针对现有的中文关键词模糊可搜索加密方案中,要预先构造模糊集合,空间、时间成本高等问题,提出新型中文多关键词模糊排序搜索的基础方案。首先,设计基于拼音串的中文关键词向量生成算法,该算法将中文关键词的拼音串基于声韵母、音调进行分割,然后映射成关键词向量。接着,利用局部敏感哈希和布隆过滤器的特性,实现关键词的模糊匹配算法。本方案加入新文档(或删除旧文档)时,无需更改原数据集的加密索引,实现了文档的动态更新。理论分析和实验结果表明:本方案无需构造庞大的模糊集就可实现高效的模糊关键词搜索,同时可实现文档的动态更新,节约了大量存储和计算开销。(3)针对中文多关键词模糊排序搜索的基础方案中,精确性不足等问题,提出了中文多关键词模糊排序搜索的增强方案Ⅰ和Ⅱ。增强方案Ⅰ和Ⅱ分别采用了基于unigram的中文关键词向量生成算法1和算法2处理中文关键词。算法1使得变化一个声母、一个韵母、音调变化和相似发音所产生的查询词的向量与原单词向量间的欧式距离差异增大,排序结果更为精确。算法2考虑了关键词中字的位置信息,解决了增强方案Ⅰ中关键词的意义不同但音节分割集完全相同导致返回无关文档的问题。理论分析和实验结果表明:增强方案Ⅰ和Ⅱ在延续基础方案优势的同时,返回更加精确的排序结果。