版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:深圳大学
学位级别:硕士
导师姓名:陈小军
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论]
主 题:属性图异常检测 深度半监督学习 图卷积网络 伪标签生成 集成学习
摘 要:随着信息时代的到来,社交网络迅速发展和普及,人们使用网络便利了生活,但同时各种类型的欺诈和攻击行为,不断伤害着用户们的权益和网络的健康环境。所谓的网络攻击,欺诈等危害行为,即我们需要挖掘的异常。属性图作为图数据结构中的一种重要类型,能很好地抽象和模拟现实场景中多种异常检测应用问题,因此属性图异常节点检测成为研究热点。近年来,随着深度学习的发展,研究者们从无监督方向出发,提出了一系列利用图神经网络同异常建模结合的深度无监督属性图异常检测方法,并取得了不错的检测性能。虽然基于无监督学习的异常检测方法成本低,但由于缺乏标签数据的修正,其性能受限,因此基于半监督的属性图异常检测成为研究趋势。通过对现有的基于深度学习的属性图异常检测方法进行研究总结,仍面临着一些问题和挑战。 首先,属性图异常检测问题相较于传统应用领域,如表格数据,图像领域来说,数据之间存在属性及拓扑关联的复杂交互,然而现有的半监督方法缺乏针对属性图数据特性的异常建模设计,所以在识别结构异常、联合异常等多种类型的属性图异常节点上还有待提高。其次,由于正常类节点与异常类节点在数量上极度不均衡,同时有标注的样本数量比无标注样本数量少很多,这使得常规的图表示方法难以学习到正常/异常类区分明显的高质量节点嵌入表示,从而限制下游异常检测网络性能。再者,在实际异常检测场景中,标签数据集占比极少,尤其是异常标签数据。这导致异常检测网络能够学习到的标签信息十分有限,从而检测网络无法较好的感知正常类和异常类的差异性。本文根据以上问题展开研究,提出了一系列有效的基于深度学习的属性图半监督异常检测方法,主要研究内容及创新总结如下: (1)为了高效利用无标注数据优化图节点表示学习过程,以及全面捕捉属性图中多种异常类节点,本文提出了一种基于自适应加权的半监督属性图异常检测方法ADAW。基于无标注数据集潜空间分布特性,本文设计了一种自适应加权方法为无标注数据样本分配网络权重以估计其正常/异常程度,从而充分利用大量无标注数据信息指导异常检测网络学习,强化正常/异常类节点的嵌入表示差异性。同时对属性及结构异常联合建模,构建基于半监督的属性重构及结构重构模块,通过最小化属性重构误差,结构重构误差以及整体重构误差以实现更全面的针对属性异常,结构异常及联合异常多种异常模式的联合检测。通过对比实验验证了ADAW检测性能的优越性,同时通过消融实验证明了分布异常检测模块,联合重构异常检测模块及自适应权重方法的有效性。 (2)实际异常检测问题中标签数据占比极少,尤其是异常标签,这使得检测网络能学习到的标签信息十分有限,限制了算法性能。本文以ADAW方法为基础进行改进,通过引入伪标签技术,提出了一种基于极值理论伪标签生成的半监督属性图异常检测集成算法ADPET。ADPET以ADAW输出的节点集异常分数分布作为算法输入,通过引入极值理论来模拟异常分数分布曲线得到异常伪标签动态划分阈值,从而生成一系列高质量异常伪标签提升检测网络训练过程。同时本方法引入集成学习思想,选用多个经典异常检测模型构建伪标签判别器。通过将节点属性矩阵LLE降维并拼接ADAW网络输出的融合结构信息的节点潜空间表达,来增强伪标签判别器的输入特征空间,提升伪标签判别器的准确度。通过两阶段的半监督检测网络迭代交替训练过程,在伪标签的指导下,使检测网络能更好的捕捉正常类和异常类的差异性,实现更优的检测性能。通过对比实验验证了基于ADAW改进的ADPET算法的优越性,伪标签生成技术及伪标签判别器的有效性。