密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果。针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题。同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD)。算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题。通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响。多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果。
随着大规模数据存储技术、信息技术和网络技术的发展,越来越多的人正陷入数据泛滥、知识匮乏的困境中。为满足日益增长的信息需求,促使数据挖掘技术广泛地应用于各行各业。聚类分析具有自动对数据进行有效划分的特性,已经成为数据挖掘技术的主要工具之一。现有的聚类算法处理低维数据有良好的效果,同时高维数值型数据的聚类分析也取得了一定的成就。然而,由于此前对高维分类型数据的研究没有引起足够的重视,以及分类型数据的特殊性,使得现有聚类算法无法满足处理分类型数据的要求。
对于高维分类型数据聚类问题,由于其样本数据在高维空间中分布的稀疏性以及相异度(或相似度)度量的局限性,使得传统的聚类算法往往得不到理想的效果。针对上述问题,提出了一个新的高维分类型数据聚类算法——基于信息熵的高维分类型数据子空间聚类算法(Entropy-based Algorithm for Subspace Clustering with High Dimensional Categorical Datasets,ESCHCD),该算法综合考虑对应子空间和噪声子空间(不相关特征维)的维度信息熵,设计了一个高效、无监督的子空间搜索方法来对高维数据进行有效降维,同时提出了基于整体数据平均信息熵的全局优化方法对聚类结果进行迭代寻优。人工数据和真实数据的实验结果表明,与其他分类型数据聚类算法相比,该算法具有很好的聚类效果和扩展性。
暂无评论