属性约简可以去除数据中冗余的属性,提高机器学习算法的性能,是人工智能中的一个重要的研究领域。尤其在当今大数据时代,数据不但维度高,结构复杂,而且包含着大量的部分标记数据和异质数据。如何对这些复杂的数据进行属性约简,从而提高机器学习算法的性能是一个极具挑战的研究课题。粗糙集作为一种有效的属性约简方法,能够在部分标记数据和异质数据上分别实现属性约简,但如何同时处理部分标记的异质数据,目前还缺乏有效的方法。而且,由于粗糙集属性约简方法普遍存在着时间复杂度较高的问题,成为制约粗糙集属性约简方法应用的主要瓶颈。为了解决上述不足,本文开展了以下两个研究工作:(1)为了能够同时处理部分标记异质数据,提出了一种基于HEOM距离与粒子结构信息的粗糙集属性约简方法(A attribute reduction of rough set based on HEOM distance and granular structure information,RS-HDSI)。首先,引入了HEOM距离来度量异质数据间的不可分辨关系,从而导出了一种面向异质数据等价类粒子的划分方法,并证明了该等价类粒子关于属性子集的单调性;其次,构造了一种能够反映不可分辨关系的等价类粒子结构信息,其特点是不依赖数据标签,就可以衡量部分标记数据中属性的分类判别能力;最后,发展了能够在部分标记数据上进行属性评价的广义依赖度,并在证明广义依赖度关于属性子集满足单调性的基础上实现了一种面向部分标记异质数据的粗糙集属性约简方法。与多个算法的实验比较表明,新方法能够有效地在部分标记异质数据上进行属性约简。(2)为了降低上一个工作所提方法的时间复杂度,提出了一种基于网状分组与属性过滤的粗糙集快速属性约简方法(A fast attribute reduction of rough set based on mesh grouping and attribute filtering,FRS-MGAF)。首先,提出了一种通过网状分组划分样本空间的方法,进而减少了构建不可分辨关系时的无关运算;其次,借助属性差异过滤策略,避免了不满足差异性条件的属性间距离的计算;最后,采用属性分组过滤策略压缩了搜索空间,进一步提高时间效率。与多个算法的实验比较表明,该算法可以在保证属性约简质量的同时,有效地降低时间复杂度。本文开展的上述工作,可以进一步完善粗糙集的理论体系,为其在不同数据环境下的应用奠定更加坚实的基础,具有重要的理论意义和应用价值。
暂无评论