针对LF蚁群聚类算法没有区分数据集属性重要度、算法效率低和聚类效果不稳定的问题,提出一种基于熵权的全局记忆LF算法(weighted global ant colony optimization,WGACO)。该算法首先通过熵权法计算各属性熵权,修改欧氏距离计算公式,以...
详细信息
针对LF蚁群聚类算法没有区分数据集属性重要度、算法效率低和聚类效果不稳定的问题,提出一种基于熵权的全局记忆LF算法(weighted global ant colony optimization,WGACO)。该算法首先通过熵权法计算各属性熵权,修改欧氏距离计算公式,以提升聚类精度;使用权重最大的属性值对数据对象进行初始化,增强聚类效果的稳定性;引入全局记忆矩阵减少蚂蚁的无效移动,提升算法效率;加入算法的收敛条件,提升算法实用性。选取UCI数据库中的7个真实数据集和3个人工生成的数据集进行数值实验,并与GMACO、SMACC、ILFACC三种改进LF的算法进行比较,实验结果表明,所提算法在精度、算法效率和稳定性上都有比较好的提升,在处理高维数据上也有较好的表现。最后,WGACO在商场会员用户细分上表现良好,体现了其实用价值。
多元时序数据上的无监督模式漂移检测是机器学习领域的一个研究热点。然而,对模式及其漂移现象的定义十分灵活,使得该任务的难度较高。受“三分而治”思想启发,文中提出了一种基于FUP-STAP增量挖掘的、针对带通配符区间的状态转移模式的三支漂移检测算法(Three-Way Drift Detection Method for State Transition pAttern with Periodic Wildcard Gaps,3WDD-STAP),它由状态转移模式(STAP)的增量算法改进而来。在不使用额外参数的情况下,3WDD-STAP可同时获得频繁的以及发生漂移的STAP。根据增量前后的支持度变化情况,模式漂移被定义为3类:I类漂移表示本来频繁的STAP在增量后变得不频繁,需扫描增量数据集;II类漂移表示本来不频繁的STAP在增量后变得频繁,需扫描原始数据集;III类漂移表示STAP在增量后维持了频繁或者不频繁,视为正常,不扫描数据集。在空气质量与石油工程设备监控两个真实数据上的实验结果表明:1)α和β的值越大,两类漂移模式的数量越少,反之亦然;2)I类漂移的STAP在不同数据集上服从不同分布;3)所得STAP模式及其漂移现象均有很强的可读性。
暂无评论