版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:苏州大学
学位级别:博士
导师姓名:周晓方
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
摘 要:伴随着GPS全球定位系统、传感器设备、可穿戴移动设备等在日常生活中的普遍应用,人们获得了大量移动对象的轨迹数据。此外,新浪微博、微信、Foursquare、Twitter、Instagram等社交网络的兴起给用户提供了互相交流和分享经验的平台,并因此产生了大量的社交网络数据。连接跨时空数据库和社交网络的用户能够获得更加丰富的数据,基于此构建的用户画像可以为诸多实际应用提供数据支撑。具体来讲,本文的研究内容主要包括以下三个部分。 (1)基于聚类的跨平台用户连接。要实现跨平台的用户连接首先需要提取用户的特征,并基于此计算用户之间的相似度。相较于直接比较两个用户的历史记录,聚类是一种更加有效的方式。在空间领域,可以使用聚类算法DP找到用户的停驻区域分布。在时间领域,可以使用高斯混合模型找到用户的时间分布。此外,为了进一步提高连接准确度,本文基于TF-IDF思想为所提取特征赋予了相应的权值。突出用户区别度高的特征,并弱化区别度低的特征。基于真实数据集的大量实验表明本文所提算法的连接准确度明显好于已有的同类算法。 (2)数据稀疏情况下的用户连接。基于聚类的方法有一个必要的前提是提供的数据集是高密度的。然而,在现实生活中虽然轨迹数据是高密度的,但社交网络数据通常是稀疏的、不对称的。因为许多用户会同时活跃在多个不同的社交平台上,而且出于安全考虑,用户在分享和转发状态时经常不提供位置数据。在这种情况下,很难提取用户的停驻区域以计算任意两个用户之间的相似度。为了解决该问题,可以使用高斯核密度估计直接计算两个用户之间的相似度。但是,基于高斯核的算法效率很低。因为在计算相似度的过程中需要针对每个单独的点计算它和另一个数据集所有点的相似度。为了提高效率,可以将空间领域划分成网格,将时间划分成片段,并计算用户在相应网格和时间段的概率。此外,可以基于任意熵计算网格和时间段的权值以更加精确地计算用户之间的相似度,来极大地提高连接的准确度。实验结果表明,综合考虑网格、时间段和权值的算法能同时保证连接效率和准确度。 (3 )用户画像的构建及应用。完成用户连接以后,单一用户的数据将变得更加丰富。基于此可以为用户构建更加完整的画像。具体过程包括:基于网格使用DP算法提取用户的停驻区域分布;基于历史轨迹分析用户在区域间的转移概率和路径;基于历史数据的时间信息计算用户在停驻区域的时间分布;基于LDA模型分析用户在停驻区域上的主题分布。根据该画像,并使用真实数据集,可以研究用户画像在位置预测、时间预测、主题预测和路径预测方面的应用性。实验结果表明,该画像在行为预测方面能获得良好的性能。 最后,本文对上述研究内容进行了总结,并对其中可以拓展的内容进行了展望,也提出了相应的解决方案。