版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:河海大学计算机与信息学院南京211100 常州工学院计算机信息工程学院江苏常州213022 江苏高校文化创意协同创新中心南京210000
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2019年第39卷第3期
页 面:734-741页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
基 金:"十三五"国家重点研发计划项目(2018YFC0407105) 华能集团重点研发课题资助项目(HNKJ17-21) 中央高校业务费课题资助项目(2017B16814 2017B20914)
摘 要:在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。