聚类分析目前是数据挖掘研究领域中热门的研究课题,DBSCAN算法则是聚类分析中较为重要的一种基于密度的算法。Apache Spark扩展了广泛使用的MapReduce计算模型,提出了基于内存的并行计算框架。通过将中间结果缓存在内存中减少I/O磁盘操作,使其能够更高效地支持交互式查询、迭代式计算等多种计算模式。为了更好地进行大数据聚类挖掘,研究如何对基于当今主流的大数据处理框架Spark对DBSCAN算法进行并行化。设计了基于Spark的DBSCAN算法并行化方案,通过合理利用RDD和设计Sample算子、map函数、collect As Map算子、reduce By Key算子,实现了对寻找核心对象的密度可达数据点过程的并行化。在Spark平台上运用DBSCAN算法对UCI的Wine数据集、Car Evaluation数据集和Adult数据集的并行化聚类结果表明,并行化的DBSCAN算法具有较好的准确性和时效性,适用于大数据聚类。
暂无评论