异常点检测也称离群点检测是一个能找出具有不同行为对象的操作。它可应用于公安、金融、医疗等多个方面,具有广泛的应用场景和重要的理论研究意义。在当今数据生活中,由于无线数据传输的不稳定性,以及数据采集设备故障等原因,不可避免的会导致存在部分信息值丢失的不完备实值信息系统(IRVIS,Incomplete Real-Valued Information System)出现。为了应对这种问题,本文不用去填补缺失数据,而是直接在该IRVIS上进行异常点检测,提升了异常点检测运用场景的丰富性,在实际生活中具有重要意义。因此,本文提出了两种在IRVIS中的异常点检测算法。第一种异常点检测算法为内边界_异常度(Inner Boundary_Degree of Exception)算法,简称为IB_DE异常点检测算法。它将内边界集合大小看作信息颗粒g大小。首先引入了适合在IRVIS中计算各属性上的两信息值之间的距离度公式,并给出了控制该距离的参数λ。然后,根据距离度定义了对象集上的相容关系,并得到了IRVIS中的相容类、λ-下近似和λ-上近似。接下来,给出了IRVIS中每个条件属性下的内边界。一个对象所属的内边界越多,它就越有可能成为一个离群值。紧接着,提出了一种基于内边界的IRVIS中的IB_DE异常点检测算法,该算法会分别计算出IRVIS中每个对象的异常度。最后通过UCI机器学习存储库中不同数据集上的实验,分别将IB_DE异常点检测算法与不同异常点检测算法进行了比较。实验结果表明,IB_DE异常点检测算法在IRVIS中具有很好的异常点检测效果。值得一提的是,在不同异常点检测算法性能评估分析中,本文使用ROC曲线和AUC排名均值说明IB_DE异常点检测算法的优越性。第二种异常点检测算法为离群因子(Outlier Factor)异常点检测算法,简称为OF异常点检测算法。首先,同样方法引入了适合在一个IRVIS中计算各属性上的两个信息值之间的距离度公式,并给出了控制该距离的参数λ。然后,根据距离定义了对象集上的相容关系,得到每个对象的相容类,并视作为每个信息颗粒g。再然后,由IRVIS中的λ-下近似和λ-上近似计算得到每个信息颗粒g的近似精度与不确实性。接下来,由不同信息颗粒g的不确定性大小给出了IRVIS中每个对象的离群因子计算公式。紧接着,提出了一种基于离群因子的IRVIS中的OF异常点检测算法,该算法会分别计算出IRVIS中每个对象的离群因子,离群因子越大表示该对象越有可能为离群点。最后,同样通过UCI机器学习存储库中不同数据集上的实验,将OF异常点检测算法与不同异常点检测算法进行比较来验证OF异常点检测算法运用在IRVIS中的优越性。
暂无评论