由于信用欺诈、网络入侵等异常的发生,异常检测被相关领域的众多国内外学者广泛关注,并已成为研究热点。目前已经提出了许多异常检测方法,其中基于聚类的异常检测方法最为流行。随着深度表示学习的发展,融合表示学习的聚类算法的性能具有了大幅提升。但是,现有的基于聚类的异常检测方法往往是根据聚类结果进行异常点检测,而在聚类过程中忽略了异常检测与聚类之间的相互依赖关系,从而导致异常检测准确度不高。为了提高异常检测算法的准确性,本文提出了一种实现样本表示学习、聚类以及异常样本发现的三者联合学习算法DORKM(Deep K-means with outlier removeal and representation learning,DORKM)。DORKM算法在遵循DKM(Deep K-means)基本框架的基础上,在聚类过程中增加了异常样本分布的确定,且在后续更新簇中心以及计算聚类损失时都考虑了异常样本的影响。在MNIST+、KDD-CUP99和UBR三个数据集上的实验结果表明DORKM算法明显优于基线算法模型,从而证明了DORKM算法在大规模高维数据下的有效性。由于样本表示学习得到地样本表示的质量取决于自编码器的结构,且不同的数据集能够拟合的编码器的结构不同,本文将基于二阶的粒子群优化堆叠自编码器引入DORKM中提出了一种新的异常检测方法PSO-SAE-KM(Particle Swarm OptimizationStacked Auto Encoder-K-means)。现有的一阶粒子群优化的堆叠自编码器(PSO-SAE)仅优化了隐藏层的层数,在此基础上,本文增加了隐藏层中节点数的优化,形成了二阶的PSO-SAE。在3个数据集上与传统的一阶算法进行对比,实验表明了提出方法的有效性。
暂无评论