数据约减方法研究及聚类有效性分析-内蒙古大学图书馆

文献详情 >数据约减方法研究及聚类有效性分析收藏

数据约减方法研究及聚类有效性分析

作者：于晓

作者单位：天津大学

学位级别：硕士

导师姓名：岳士弘

授予年度：2017年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：数据约减网格算法向量角算法聚类有效性最佳类数

摘要：随着人工智能、信息技术的不断进步,各行的数据量不断涌现:基因数据、医疗数据、金融数据等等,人类正在进入数据化的时代。面对大量数据,如何去除噪声、冗余数据,挖掘出隐藏在其中有价值的信息是大数据时代所要解决的主要问题之一。数据约减技术正是解决这一问题的有利工具。目前的数据约减技术主要集中在特征约减上,对数据集中样本约减研究甚少,针对现有状况,论文对数据中样本约减技术进行了研究,并在此基础上针对聚类领域的有效性问题进行了探讨、分析。数据约减的主要目的就是将数据集中不重要的信息去除,使剩余后的数据更加有利于分析。文中针对数据集分布的一般规律特性,提出了两种数据约减方法:基于网格的数据约减方法、基于向量角的数据约减方法。基于网格方法中通过划分数据空间,定义数据点的绝对密度及相对密度,达到数据约减的目的。基于向量角方法中通过确定每个数据点的平均向量角大小,区分数据集中的核心、边界对象,逐步将边界对象删除,保留数据集的重要信息数据。对人工数据集及UCI数据集分别采用所提算法进行试验验证,结果显示所提出的算法能有效地去除数据集中的冗余数据点,使数据集的结构信息更加明显。数据挖掘中聚类技术由于特有的无监督特性,使得该分析方法在处理海量信息时得到了广泛的应用。但聚类领域中的有效性问题一直是研究的热点问题。聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性及聚类算法的影响,所确定的类数难以保证。文中以数据约减为基础,对约减前后的数据集从聚类准确率、最佳类数确定等方面进行分析,实验表明约减后的数据集中类间分离性增大,且约减后的数据集具有更高的聚类准确性,所确定的最优类数更接近数据集本身的类数。

本地馆藏 | 借阅须知 | 我要预约

已订购，未入库

sda

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

数据约减方法研究及聚类有效性分析

读者评论与其他读者分享你的观点

请选择收藏分类：

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

数据约减方法研究及聚类有效性分析

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：