版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:山东大学
学位级别:硕士
导师姓名:洪晓光
授予年度:2010年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:当今时代伴随着网络的迅速发展,信息传递方式的增加,越来越多的信息能够更迅速的传递到人们面前。海量和多元化的信息在给人们生活带来便利的同时,也给人们带来了灾难——“数据炸弹。面对铺天盖地蜂拥而至的信息,另人们苦恼和彷徨,不禁期待找到一种方式来简化数据,只保留中心数据供自己使用。在这种情况下,对数据进行挖掘的各种方式就应运而生,并在越来越广阔的领域获得应用和发展。 属性约简正是这些挖掘方式中的一种很重要的形式,它是在保持数据分类或决策能力不变的前提下,对数据中的非决策属性进行约简,从而获得人们期望的与原数据具有相同分辨能力但是数量却少得多的精简数据。 本文从阐述在信息时代信息约减的作用开始,首先阐述了在信息系统中核属性的重要作用以及利用区分矩阵的方式来求取属性核心的代价、求取正区域的代价等进行了细致的分析,对当前经典的属性约简算法进行了简介,并运用Rough集的理论给出了判定一个属性子集中是否包含属性核心的充要条件。然后,根据这些研究结论,结合当前大容量的数据都是存储在数据库中的基本现实,充分利用了数据库技术在大容量数据存储和查询的优越性,对当前的基于粗糙集的属性约简算法进行了改进,并在此基础上,结合求取核心属性的非必须性和正区域的补的概念,从一个新的途径提出了新的属性约简算法。 通过对改进的经典算法和新提出的属性约简算法的实验结果的分析表明,对于较大数据集和大数据集,两种算法解决了目前属性约简算法应对大容量数据的窘境,并且效率远远高于现存的一些基于主存的算法。同时算法逻辑简单,易于实现和推广,对于数据挖掘、人工智能、机器学习等领域具有一定的促进作用。