传统的聚类算法大多直接在特征空间中进行分析计算,对于高维数据无法实现直观有效的聚类结果图形可视化。基于距离相似性的聚类算法易于理解,计算效率高,但无法有效处理空间中非凸球分布的数据集。本文提出了一种基于图数据建模的聚类方法,将特征空间数据映射到图空间进行聚类分析,从而得到原数据的聚类结果。同时,本文提出了“邻近边界可信度”概念,并提出一种基于PageRank算法的可信度检测方法RDBPR(Reliability Detection Based on Page Rank),对聚类结果进行可信度检测。首先总结了传统聚类算法和图聚类算法的研究现状、意义及思路,为后续的研究奠定基础。其次,简要概述了图论的基础知识和相关概念,然后综述了基于特征空间的聚类算法和图聚类算法,并对软聚类和聚类结果可信度概念做了介绍,最后概述了PageRank算法的相关概念。第三,根据传统的在特征空间中的聚类算法存在的问题,结合对不同类型数据集的实验分析,提出了一种基于相似度的图数据建模方法,并对建模得到的图数据进行基于模块性度量的聚类分析,进而得到原特征空间数据的聚类结果。第四,提出了“邻近边界可信度”的概念。考虑模糊聚类算法的软聚类结果作为可信度度量的不足,结合图数据的特点,提出了一种基于PageRank算法的可信度检测方法。最后,对开源数据集进行实验仿真,并与传统聚类算法进行对比。同时本研究设计开发了一个综合实验平台,可以对导入的数据集进行相关的聚类实验分析。
暂无评论