最初人类产生的数据信息都比较简单,数据量也比较小,且关联性较强。比较容易发现数据之间的关联信息和隐藏的价值。随着时代不断地发展,人类在日常生活中产生的数据越来越庞大,也越来越复杂化。数据之间的关联性也越来越弱。单纯用传统的途径就很难发现这些海量数据背后的价值。聚类算法的出现,可以挖掘出这些海量数据信息背后隐藏的巨大价值并加以利用。聚类算法针对于这些海量、多样、复杂的数据都有很好的表现,对于人类去挖掘海量数据信息背后潜在的价值是一种不可或缺的技术手段。聚类划分的质量需要用聚类有效性指标进行评估。显然,聚类有效性指标对于发现数据集正确的分类数目有着重要的作用,对于聚类算法能力的评估有着至关重要的作用。然而现有的聚类有效指标存在簇中心分布很接近时很难得到正确聚类数目的问题、过于划分聚类的问题、评价机制过于简单的问题、无法避免单一算法聚类可能产生弊端的问题、面向含有噪声的数据集性能较差的问题。为了解决以上问题,本研究面向多个模糊聚类算法提出了两种新的聚类有效性指标:MI指标(cluster effectiveness index for multiple interactions)和TLW指标(Tang-Li-Wang index)。
本文的工作如下:
(1)提出了MI指标。指标由三项构成,第一项是聚类中心值K。第二项用来刻画指标的紧致性,是由两部分组成的,第一部分是由新的模糊基数和模糊加权距离组成的,把它作为分子。第二部分是数据集样本方差的改进形式,把它作为分母。第三项用来刻画分离性,它是由聚类中心之间的最大值、最小值、二倍的均值、样本方差组成的。采取前三者的和与后者的乘积的方式进行复合,构成了更为立体的表达模式。三项相乘就是MI指标函数表达式。最后从理论上验证了指标的收敛性,同时利用三种类型的数据集对提出指标进行对比测试实验,都说明了MI指标与以往指标确实有着更广的适应能力和更好的鲁棒性。
(2)提出第二个指标TLW指标。该指标从新的方向出发,综合了以往的指标特点的基础上,使得指标具有更好的性能,计算更加简便,同时在处理复杂类型和结构的数据集也能得到很好的结果。在这里选取FcM算法作为聚类算法,采用17个不同类型的数据集进行测试和研究,实验证明,新指标确实在处理不同数据集能达到比较好的效果。
互联网3.0时代的到来,实现了以个人终端为中心点出发与整个网络世界之间的信息互动。面对如此大规模的行业增长,信息过载的问题却愈发严重,在这种背景下,运用个性化推荐对信息进行过滤和自动推荐,可以很好地解决信息过载问题,同时也提高了用户和互联网产品的互动性,具有深远的应用前景与现实意义。在诸多个性化推荐算法中,应用最广泛的是协同过滤(collaborative Filtering,cF)推荐算法,但cF推荐算法也存在着数据稀疏性、可扩展性不佳、冷启动等问题。在对cF推荐算法进行改进的方法中,聚类算法常用于对评分矩阵进行聚类,将用户或项目划分为不同类别,以便更高效、更准确地搜索近邻集,从而提高推荐质量;Hadoop作为一个高效的分布式计算平台,可以作为分布式推荐算法的运算平台。本文从聚类算法入手,首先针对密度峰值聚类算法(Density Peaks clustering,DPc)采用欧式距离测度进行划分存在的问题,提出一种共享近邻距离进行改进;然后为了解决模糊c均值聚类算法(fuzzy c-means algorithm,FcM)聚类结果依赖初始参数设置的问题,采用DPc算法选取中心点的策略对其优化,提出一种基于密度峰值改进的模糊c均值聚类算法(DPcNDFcM);接着根据MapReduce分布式计算模型的特点,设计了基于MapReduce的DPcNDFcM算法(MrDPcND-FcM);最后针对cF推荐算法存在的数据稀疏性,可扩展性问题,采用MrDPND-FcM算法对cF推荐算法进行了改进,实现了基于模糊聚类的分布式协同过滤推荐算法。详细内容如下:1.针对DPc算法采用欧氏距离测度可能会引起划分错误的问题,提出了一种基于共享近邻距离的密度峰值聚类算法(Density Peaks clustering based on Shared Near Neighbors Distance,DPcND)。结合自适应相似度和共享近邻的概念,提出了一种共享近邻距离的测度方法,并将其应用在DPc算法中,在UcI数据集和人工数据集上的对比实验证明,DPcND算法采用共享近邻距离进行测度可以更客观地反应复杂结构数据集的分布特点,提高了聚类准确率。2.针对FcM聚类算法的聚类结果依赖于初始中心点选取,易陷入局部极值等问题,提出了基于密度峰值改进的模糊c均值聚类算法(DPcND-FcM)。DPcND-FcM算法利用DPc算法的策略选取中心点后,再通过FcM算法迭代聚类,更准确地选取了中心点,减少了迭代次数。通过在UcI数据集和人工数据集上进行测试,并与其他算法进行分析对比,验证了DPcND-FcM算法选取中心点更为准确,其聚类效果和相关指标也更为优异。3.为了解决DPcND-FcM算法处理大规模数据集时的时间复杂度过高的问题,结合MapReduce并行计算模型Map按行读取数据、Shuffle排序、Reduce合并计算等特性,提出了基于MapReduce的DPcND-FcM算法(MrDPcND-FcM)。Hadoop环境下,MrDPcND-FcM算法首先通过3个MapReduce作业的Job串行执行,完成初始中心点的选取,接着通过1个MapReduce作业的Job循环进行,完成FcM迭代聚类,从而实现分布式环境下的聚类,最后在Hadoop平台上对UcI的UScensus1990raw数据集上进行单机结点和集群性能的实验,通过对结果的分析对比,证明了MrDPcND-FcM算法具有较好的加速比和可扩展性。4.针对cF推荐算法存在的数据稀疏性和可扩展性问题,提出了基于DPcND-FcM聚类的分布式协同过滤推荐算法(MrDF-cF)。首先采用DPcND-FcM模糊聚类算法对cF算法的用户-项目评分矩阵进行聚类,模糊聚类划分更符合现实世界的情况,可以使目标用户可隶属于不同的用户簇,然后过滤掉隶属度过低的用户簇,得到候选用户集,接着在候选用户集上采用基于用户的协同过滤推荐算法,并将隶属度作为权值加到评分预测公式中进行推荐,最后针对算法的可扩展性,设计了改进协同过滤算法在分布式环境下的算法流程。通过在MovieLens数据集上的测试,表明了MrDF-cF算法和传统cF推荐算法相比,在具有较高推荐质量的同时,也具有较好的可扩展性。5.设计和实现了一个基于Hadoop的图书推荐系统,实现了图书推荐、算法建模、算法评估等主要功能。整个系统分为图书推荐子系统和大数据处理子系统两个部分,在系统前端输入数据集和设定推荐算法,大数据处理系统会对输入数据进行数据处理和算法建模,并将结果反馈给前端。该系统的算法评估结果显示,本文提出的MrDF-cF分布式推荐算法在实现了对用户的个性化图书推荐的同时,也具有较好的推荐性能指标。
在当今社会,图像数据呈爆炸式增长,图像在人们学习工作生活中占据越来越重要的地位。面对如此庞大的数据,如何有效地提取可用信息是图像处理领域的主要课题。图像分割是指把图像分解成各具特性的区域并提取出感兴趣目标的技术和过程,它作为图像处理的一门关键技术,直接关系着图像分析、图像理解和图像识别的质量。
图像分割研究近几年一直是热点问题,学者提出的分割算法数以千计,其中基于模糊c均值聚类算法的图像分割方法是一类极其普遍且有效的方法。随着人们对图像分割精度的要求不断提高,模糊c均值算法也得到了不断的发展。针对图像数据的特性,加入空间特征信息项的模糊c均值聚类算法成为研究热点,其中,FcMS(Fuzzy c-means clustering with constraints)算法以及FLIcM(Novel robust fuzzy local information c-means clustering)算法是融入区域空间特征信息的代表算法。
通过对FLIcM算法及其相关算法的研究,作者发现并证明了FLIcM算法的解不是其目标函数最小化的结果,导致了FLIcM算法不收敛,并且进一步说明了FLIcM算法框架不存在闭式解,因此,继承FLIcM算法框架的算法均存在不收敛的问题。作者改进了FLIcM算法的目标函数,使得区域空间特征信息更好的融入聚类算法,同时针对目标函数没有闭式解的问题,设计了使用遗传算法解决目标函数优化问题的方案,提出了基于遗传算法的图像分割算法—-GAFLIcM算法。在人工合成图像以及自然图像上的实验证明了GAFLIcM算法具有更好的抗噪声能力,改善了图像分割的效果。图14幅,表6个,参考文献44篇。
暂无评论