现实工程应用中所产生的数据集包含了大量难以处理的特征,这增加了数据挖掘的计算开销并降低了分类的准确性,尤其是高维数据集。特征选择是消除数据集中多余和嘈杂特征的一种简单有效的方法。传统的特征选择方法往往会随着搜索空间的扩大,计算量随之增大而导致计算复杂度增加。而基于启发式搜索策略的特征选择模型及算法计算效率高,在解决特征选择优化问题上表现出优越的性能,已引起了广大学者的关注和研究。相比遗传算法、粒子群优化算法等这些元启发式算法而言,帝王蝶优化(Monarch Butterfly Optimization,MBO)算法具有计算简单、所需计算参数较少、收敛迅速、易于程序实现等优点,但仍存在可搜索位置局限、容易陷入局部最优等不足。为弥补这些局限性,本文提出了三种基于帝王蝶优化算法的特征选择方法,通过实验分析验证所提方法的有效性。本文的主要研究工作如下:(1)针对帝王蝶优化算法全局搜索能力弱,以及在迁移过程中易出现种群多样性减少等问题,提出了一种基于柯西变异的差分自适应MBO(Differential Adaptive MBO Based on Cauchy variation,DAMBO)算法及其特征选择方法。首先,使用差分进化算法中的差分扰动操作来替换MBO算法中的迁移算子,形成了差分变异迁移算子,提升了全局搜索能力。其次,将自适应调整策略融入MBO算法的调整算子中,形成了自适应调整算子,改变单一的继承方式,提高了MBO优化效率。然后,利用柯西变异方法,对每次更新的种群中适应度值最差的五个个体,进行柯西变异,有助于指导较差的个体找到最优解,增加了种群多样性。最后,将提出的DAMBO算法与K-Nearest Neighbor分类器相结合,构建了一种启发式特征选择算法。为了验证基于改进的帝王蝶优化的特征选择算法的性能,分别从9个基准函数和12个UCI数据集两部分实验对其进行测试。实验结果表明,所提出的特征选择算法与相关算法相比具有较优的分类性能。(2)针对当前很多特征选择优化问题中存在离散的决策变量和搜索空间的问题,借鉴原始MBO算法能有效解决连续优化问题,且二进制算子比连续算子具有更强的拟合性,提出了二进制MBO(Binary MBO,BMBO)算法,并基于包装式框架内构建基于BMBO的特征选择方法。首先,采用基于S型和V型传递函数的第一种机制设计了两种二进制MBO算法,即基于S型和V型传递函数设计BMBO算法,分别用BMBO-S和BMBO-V表示。然后,第二种机制是在MBO算法上结合群体划分策略和局部扰动,形成第三种BMBO算法,以避免MBO算法过早陷入局部最优;在BMBO算法中引入了变异算子来增强探测阶段,形成第四种二进制MBO算法,即BMBO-M算法。最后,基于KNN分类器形成适应度函数,结合改进的四种BMBO来设计特征选择算法。采用20个UCI数据集做仿真实验,与文献中最近的相关算法进行比较,对所提的算法进行评估。实验结果表明,与最近的类似技术相比,BMBO和BMBO-M算法均表现出较好的分类能力。(3)针对经典的MBO算法不能很好地处理连续型数据,以及粗糙集对于大规模、高维复杂的数据处理能力不足等问题。利用邻域粗糙集模型既能分析连续数型据,又能处理符号与数值的混合型数据的优势,提出了一种基于邻域粗糙集与MBO的特征选择(Feature Seleciton Using Neighborhood Rough Sets and BMBO-M,FS-NBM)方法。首先,针对获取的数据构建邻域决策系统,并进行初始化处理。然后,结合基于邻域粗糙集的邻域依赖度度量来构造新的适应度函数,对选择的特征子集的适应度值进行评估并排序。最后,使用已提出的BMBO-M算法搜索最优特征子集,进而设计了一种启发式的FS-NBM算法,该算法在特征选择问题上具有较强的搜索能力,可以有效地获取最小/最优的特征子集。实验中使用14个UCI数据集进行分析和测试,与多种最近提出的启发式特征选择算法进行实验对比。实验结果表明该方法能够选择特征数较少且分类精度高的特征子集。
暂无评论