版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京邮电大学计算机学院江苏南京210023
出 版 物:《南京邮电大学学报(自然科学版)》 (Journal of Nanjing University of Posts and Telecommunications:Natural Science Edition)
年 卷 期:2018年第38卷第3期
页 面:54-64页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61272422 61672297)资助项目
摘 要:传统的重叠社区发现基于网络的结构信息,具体依靠节点之间的连接关系,由于没有使用节点的内容信息,难以反映网络社区的语义。文中提出了一种大规模网络中基于节点属性的重叠社区发现算法(Overlapping Community Detection algorithm based on LDA,OCD_LDA),该算法使用LDA主题模型对节点内容进行多维属性建模,将网络节点看作文章,节点所携带的多维属性值看作文章中的单词,因此网络中的社区对应了主题模型中的主题,节点的多重社区归属对应于文章的多个主题。算法进一步考虑到网络中节点内容短小在主题建模过程中导致的数据稀疏问题,在LDA主题模型中引入Spike and Slab prior方法辅助实现变量选择和参数估计,有效地解决节点上社区分布的稀疏性和平滑性问题。实验使用DBLP文献数据集对算法进行了验证,结果表明,OCD_LDA算法能够更加有效地发现大规模网络中的重叠社区分布,揭示出复杂数据的内在特性。