社交网络是信息的一种载体,不仅节点的链接关系中蕴藏着丰富的信息,而且节点本身也具有多样的信息。因此,对社交网络进行数据挖掘具有重要意义。随着互联网的普及,社交网络的节点个数逐渐增多,网络结构也变的越发复杂,给现有的网络挖掘技术带来了前所未有的挑战。如何将稀疏且高维的网络数据,映射为稠密而低维的特征向量成为解决问题的关键,因此网络表示学习模型一度成为研究热点。网络表示学习是指使用某种方法将稀疏、高维的原始输入数据表示为稠密、低维的向量,同时保留网络信息,发现数据内在规律。随着深度学习技术的出现,出现了一些基于深度模型的表示学习模型,SDNE(Structural Deep Network Embedding)模型是其中一种基于深度自编码的网络表示学习模型。SDNE模型使用一阶和二阶近邻关系保持网络结构,采用深度自编码学习网络结构信息的低维特征向量。但它只利用了网络的结构信息,忽略了网络节点自身具有的属性信息,同时没有充分利用网络中的成对约束信息。针对上述问题,采用的改进方法为:在SDNE模型的基础上,融入了网络属性信息,利用深度自编码器学习融合网络结构和属性信息的特征表示,同时充分利用网络的局部信息,最终生成LEANE(Locally Enhanced Attribute Network Embedding Via Deep Auto-encoder)模型。本文围绕SDNE表示学习模型展开研究,主要研究内容如下:***模型研究。在SDNE模型基础上,增加多个深度自编码器学习融合网络结构和属性信息的低维特征表示;同时借鉴拉普拉斯特征映射思想来实现局部增强;最终形成LEANE模型。利用该模型进行网络特征表示学习,将学到的低维特征向量进行分类和聚类实验,在5个真实数据集上与7个同类模型比较,效果均优于同类模型。2.模型应用。将CSDN社交网络数据进行预处理,利用LEANE模型学习到融合CSDN社交关系和属性信息的低维特征表示,将特征表示分别运用k-means,GMM(Gaussian Mixture Model),BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)三种聚类算法完成用户聚类任务,综合三种聚类结果分析用户成长类型,并为每簇用户制定针对性的营销措施和服务,实现精细化运营。
暂无评论