基于密度的DBSCAN聚类算法和基于划分的k-means聚类算法各有其优缺点。文中在k-means和DBSCAN聚类算法的基础上,以减少聚类算法对参数和数据点输入顺序的敏感性,发现任意形状的簇,提高聚类挖掘的质量为目标,提出了一种密度和划分结合的聚类算法—DDCA。该算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明,提出的DDCA算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。
暂无评论