大数据和物联网技术的发展,使得越来越多的数据被采集、存储和分析。数据规模扩大的同时也包含了大量的冗余、不相关或者弱相关特征。这些特征与数据的主要结构没有关联,或者只有松散的弱关联。特征选择技术通过对数据原特征空间分析,过滤掉冗余和不相关特征,保留相关特征,进而提升算法的分类性能和时间效率。本文以森林优化算法为基础,提出了两种新的特征选择算法,具体贡献和研究内容如下:(1)提出一种基于重复度分析的森林优化特征选择算法(feature selection using forest optimization algorithm based on duplication analysis,DAFSFOA)。针对森林优化特征选择算法(feature selection using forest optimization algorithm,FSFOA)初始种群质量差、森林收敛速度慢,以及对高维数据集适应度差的问题,提出了基于信息增益的自适应初始化策略。为了降低算法的内存消耗,对候选森林的规模进行了限制。同时,采用重复度分析机制、森林重启机制和候选最优树生成策略,提高森林中个体的多样性,增强算法的全局搜索能力。最后,改进适应度函数,增强算法对森林中个体的评价能力。这有利于种群向增大维度缩减率的方向演化。实验表明,DAFSFOA的特征空间探索能力强于FSFOA,而且能够适应不同维度的数据集。(2)提出一种代理辅助的森林优化特征选择算法(surrogate-assisted forest optimization algorithm for feature selection,SAFSFOA)。算法采用基于对称不确定性的异常值过滤自适应初始化方法,进一步提高初始种群的质量与多样性。针对算法时间消耗过大的问题,采用代理辅助森林进化的方法。在保证种群质量的同时,大大缩短了评价森林中个体所需的时间。同时,采用改进的重复度分析策略降低森林中树木的相似度。并且对种群的演化情况进行监控,在种群陷入局部最优时,触发森林停滞重启策略,使用候选最优树补充森林树木,防止森林过早陷入局部最优,保证了森林时刻处于高质量和高多样性的状态。对比DAFSFOA,SAFSFOA具有更快的收敛速度和更小的时间消耗,同时也具有较强的寻优能力。
森林优化算法是一种基于森林中树木播种思想的演化算法,其具有良好的特征空间搜索能力,且实现难度低。但该算法在森林整体的收敛速度和寻优能力上仍存在提升空间,而且对高维数据集的适应度较差。本文针对上述问题提出了基于重复度分析的森林优化特征选择算法(feature selection using forest optimization algorithm based on duplication analysis, DAFSFOA)。该算法提出了基于信息增益的自适应初始化策略、森林重复度分析机制、森林重启机制、候选最优树生成策略、综合考虑特征选择数量和分类正确率的适应度函数。实验结果表明,DAFSFOA在大部分数据集上达到了最高的分类准确率。同时,对于高维数据集SRBCT,在维度缩减率和分类准确率方面,DAFSFOA对比森林优化特征选择算法(feature selection using forest optimization algorithm,FSFOA)都有较大提升。DAFSFOA比FSFOA具有更强的特征空间探索能力,而且能够适应不同维度的数据集。
暂无评论