聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.
作为一种重要的机器学习方法,聚类算法在许多数据分类领域得到了广泛的应用,人们可以利用聚类算法完成数据挖掘、图形模式识别、图像分割等工作,并取得了不错的成绩。然而,由于聚类算法无监督学习的特点,对聚类结果的质量进行评估就成了一项重要的研究内容。与此同时,许多聚类算法必须在开始运行之前设置目标数据集的类簇个数,但是在通常情况下,这个数字往往难以事先获知。围绕上述两个问题,本文从簇间分离度的衡量方法入手将现有的内部聚类有效性指标进行分类并深入分析,主要完成了以下几项研究工作:1.针对数据集中的离群点和不平衡分布类簇的问题,定义了簇对中心距离(mpdist,midpoint-involved distance),以此来度量类簇间的分离情况。2.提出了一种新型内部聚类有效性指标(MPC,mpdist-based clustering validity index),以此来有效评估多种聚类算法针对不同类型数据集上的聚类效果,得益于线性时间特性,MPC指标能够快速地处理大规模的真实数据集。3.基于(AHC,Agglomerative hierarchical clustering)算法处理数据的思想和规则,将MPC指标以一种新的迭代方式嵌入到AHC算法的运行过程中,提出了一种高效确定目标数据集最佳类簇数(Kopt,optimal number of clusters)的新算法(AHMPC,AHC and MPC based cluster algorithm),以此来减小在确定目标数据集Kopt时因多次重复运行聚类算法所产生的时间成本,从而使得新算法更加适用于大型数据集。在40个不同类型数据集上进行验证,从最终的实验结果中可以看出,本文提出的聚类分析方法是有效的。
暂无评论