属性选择的核心思想是要在原属性全集的基础上,通过一定的算法和模型去除那些缺乏识别能力和预测能力的冗余属性,得到的新属性子集在数据挖掘的建模性能上优于使用整个属性集所达到的效果。属性选择作为数据挖掘过程中的一个重要步骤可以有效地降低特征维度,去除不相关属性,提高模型准确率以及增加模型的可解释程度。
属性选择问题可以分为有指导学习环境下的选择和无指导学习环境下的选择。“有指导”和“无指导”的一个显著差别就在于数据样本的类别问题。如果用来建立模型的训练集合中的每个样本已经有了明确的类别属性,那么在这样的数据集上建立模型的过程就是有指导学习。如果数据集中的样本没有明确的类别属性,纯粹利用数据集内在特征和结构来建立模型的过程就是无指导学习。
众所周知,在有指导学习环境下,出现了很多性能优越、实用性强和操作方便的属性选择方法。其中的典型代表有Relief-F、信息增益和卡方检验等。过去传统意义上的属性选择通常是指在有指导学习环境下的属性选择。但是近年来,随着数据挖掘技术渗透到更多行业领域,无指导学习环境下的属性选择问题也正在日渐为人所关注。
由于无指导学习没有关于样本类别的重要信息,在面对大量属性的数据集所进行属性选择的效果不如有指导学习环境下的结果。本文的重点就是对无指导学习下的属性选择进行深入研究,以此为无指导学习环境下的提高数据挖掘的效率提供一些实践经验。
本文首先是全面地综述属性选择的意义、方法等,尤其是在无指导学习环境下属性选择的发展现状,这些都为本文的进一步研究提供了理论基石。在已经深入了解和体会现有发展的基础上,提出一种新型的属性选择模型——无指导学习环境下基于属性相关性分析和聚类算法的属性选择方法ULAC(Feature Selection for Unsupervised Learning Based on Attribute-Correlation Analysis and Clustering Algorithm)。然后通过实验方式来验证ULAC模型的有效性、显著性和适用性。有效性的分析,是验证ULAC本身是一个无指导学习环境下的属性选择方法。显著性的分析,是将该模型与其他当前比较流行的无指导学习环境下的属性选择方法进行比较,从而验证其效果的显著性和优越性。适用性的分析,则是研究ULAC在什么情况下的模型组合性能最优和ULAC对不同数据集合特征的适应程度。最
暂无评论