版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:天津大学
学位级别:硕士
导师姓名:岳士弘
授予年度:2017年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:数据约减 网格算法 向量角算法 聚类有效性 最佳类数
摘 要:随着人工智能、信息技术的不断进步,各行的数据量不断涌现:基因数据、医疗数据、金融数据等等,人类正在进入数据化的时代。面对大量数据,如何去除噪声、冗余数据,挖掘出隐藏在其中有价值的信息是大数据时代所要解决的主要问题之一。数据约减技术正是解决这一问题的有利工具。目前的数据约减技术主要集中在特征约减上,对数据集中样本约减研究甚少,针对现有状况,论文对数据中样本约减技术进行了研究,并在此基础上针对聚类领域的有效性问题进行了探讨、分析。数据约减的主要目的就是将数据集中不重要的信息去除,使剩余后的数据更加有利于分析。文中针对数据集分布的一般规律特性,提出了两种数据约减方法:基于网格的数据约减方法、基于向量角的数据约减方法。基于网格方法中通过划分数据空间,定义数据点的绝对密度及相对密度,达到数据约减的目的。基于向量角方法中通过确定每个数据点的平均向量角大小,区分数据集中的核心、边界对象,逐步将边界对象删除,保留数据集的重要信息数据。对人工数据集及UCI数据集分别采用所提算法进行试验验证,结果显示所提出的算法能有效地去除数据集中的冗余数据点,使数据集的结构信息更加明显。数据挖掘中聚类技术由于特有的无监督特性,使得该分析方法在处理海量信息时得到了广泛的应用。但聚类领域中的有效性问题一直是研究的热点问题。聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性及聚类算法的影响,所确定的类数难以保证。文中以数据约减为基础,对约减前后的数据集从聚类准确率、最佳类数确定等方面进行分析,实验表明约减后的数据集中类间分离性增大,且约减后的数据集具有更高的聚类准确性,所确定的最优类数更接近数据集本身的类数。