不平衡数据分类问题在数据挖掘领域占有重要的地位,如何有效处理不平衡数据已然成为当前的一个研究热点。采用传统的分类模型时,数据的失衡往往造成分类面的偏倚,导致难以得到令人满意的分类效果。现今,国内外学者相继提出了多种用于解决类不平衡问题的方法,但并没有充分考虑到数据的分布对分类模型性能的影响。针对传统模型出现的偏倚问题,本文基于代价敏感学习的思想,充分讨论了数据分布特性对分类器性能的影响。同时,本文基于样本数据的先验分布特性对数值型数据和图像数据的二分类及多分类不平衡问题分别展开了研究。主要研究工作有以下两方面:(1)数值型数据指经过人工筛选数值化后的数据,可直接用于分类器学习,而传统的分类器容易对多数类产生更大的偏好,造成对少数类的分类准确率下降。对此,本文提出了基于数据分布的加权极限学习机D-WELM(data distribution based weighted extreme learning machine)。该算法基于代价敏感学习,不仅考虑了样本类别数量的影响,还有数据分布的影响,同时,把全局损失考虑在内设计了一个新的加权方案。为了验证D-WELM算法的可行性和有效性,本文在包括二分类和多分类的多个不平衡数据集上进行了对比实验。实验结果表明,DWELM在不平衡分类问题中可以表现出更好的分类性能。(2)图像数据一般呈现规模大、维数高的特点,若是直接运用简单模型则不能得到好的效果,若是运用卷积神经网络CNN,则可以完成对图像特征的有效提取。本文针对图像的不平衡分类问题,提出了基于卷积神经网络和数据分布的加权极限学习机CNN-DWELM。该算法同样基于代价敏感学习,同时结合了CNN对特征提取的优点和ELM训练速度快、分类精度高的优点。通过在3个数据集上的实验对比,结果表明CNN-DWELM具有更好的不平衡图像分类能力。
随着信息时代的发展,数据形式呈现多样化。其中,具有不平衡特性的数据广泛存在于实际应用中。传统分类模型对不平衡数据分类时,其期望风险最小化会导致分类结果倾向于对多数类样本的识别,而忽略少数类样本;此外,随着数据规模增大,不平衡数据具备高维特性后,数据中往往存在着大量与分类任务无关的特征,使得分类模型复杂度上升、分类效果不佳。针对上述问题,本文通过对传统随机森林进行研究,提出适应不平衡数据和高维特性的随机森林改进算法。本文所取得研究成果主要有:
针对传统随机森林对不平衡数据少数类样本识别低问题,提出一种基于密度峰值聚类(Density Peaks Clustering,DPC)的过采样加权随机森林算法。该算法在数据层面,首先对数据集进行噪声处理;接着利用DPC计算少数类样本的局部密度和中心偏移距离得到样本采样权重;之后根据采样权重利用插值公式合成新样本,得到平衡化数据;在算法层面,首先将一致性系数作为袋外样本评估决策树分类性能的指标;接着利用评估值对决策树进行筛选操作;之后对决策树加权处理得到集成模型。该算法对比传统随机森林在Recall、AUC、G-mean平均值分别提升了10.8%、6.0%、6.2%,对比其它算法在Recall、AUC、G-mean平均值最高分别提升了5.5%、3.8%、3.9%。实验结果表明该算法对不平衡数据少数类样本识别率和整体分类精度有一定的优势。
针对高维不平衡数据存在的与分类任务无关特征以及高维不平衡数据少数类样本分类准确率低问题,提出一种基于特征选择的代价敏感随机森林算法。该算法首先使用基于对称不确定性和信息距离的特征选择方法为决策树找到一组相关性大冗余性小的特征子集;接着利用特征代价向量生成方法为特征子集生成特征代价向量,并将其转换为特征概率向量融入决策树结点分裂准则;之后将代价敏感准则转化为评分规则引入随机森林,得到基于特征选择的代价敏感随机森林。该算法对比传统随机森林在F1-measure、AUC、G-mean平均值分别提升了5.2%、5.7%、6.7%,对比其它算法在F1-measure、AUC、G-mean平均值最高分别提升了6.2%、6.6%、7.3%。实验结果表明该算法可以有效提高特征利用率,选取对分类任务贡献大的特征子集,能够在提高少数类样本分类准确率的基础上保证总体分类性能。
分类问题是机器学习领域研究的重要分支,而现实中的分类问题往往具有数据不平衡性,如常见的医疗诊断、信用卡欺诈检测,故障检测等,对不平衡数据的分类问题展开研究具有重要的理论与实际价值。相较于平衡数据分类问题,不平衡数据具有:类间样本不平衡,少数类样本错分代价极高的特点。集成学习算法作为当前机器学习中较为典型的代表,能够通过群体决策提高整体分类准确率,被广泛应用至不平衡数据的分类中。但目前其对不平衡数据的分类效果仍有待提升,这主要是因为集成学习算法是以降低整体分类错误率为目标,并没有进一步考虑不同样本分类代价的差异,对关键的少数类样本识别效果欠佳。此外,不平衡数据也常伴随着高维度、低价值密度、类内数据交叠、缺失值严重等特点,这都给当前的集成学习算法带来了多重挑战。有鉴于此,本文聚焦于不平衡数据分类问题中的难点,在现有的不平衡数据分类方法基础上,从数据和算法两个层面出发,构建自适应关键特征挖掘算法,并引入代价敏学习对Ada Boost集成学习算法进行改进,以实现模型在保证整体分类准确率的前提下,对少数类样本的有效识别。主要的研究内容如下:(1)从数据层面出发,本文将从不平衡数据的关键特征挖掘技术展开分析,针对皮尔森冗余滤波器(Pearson's Redundancy Based Filter,PRBF)关键特征挖掘算法在删除特征时存在盲目性,易导致模型欠拟合的问题,提出了一种基于皮尔森冗余滤波器改进的自适应关键特征挖掘算法AKKPRBF(Adaptive KNN and Kernel Density Pearson's Redundancy Based Filter),该算法在皮尔森冗余滤波器算法的基础上引入了核密度估计系数对关键特征进行多系数联动识别,通过基于近邻距离的KNN算法对关键特征缺失值自适应填充,以维持特征的特异性,并利用多项式动态组合创建新特征,进一步提高特征的标识度。采用Ada Boost算法作为分类器,构建AKKPRBF-Ada Boost分类模型,通过分类结果对AKKPRBF关键特征挖掘算法的有效性进行验证,实验表明AKKPRBF自适应关键特征挖掘算法对集成学习分类模型性能有着更为显著的提升。(2)从算法层面出发,本文针对自适应增强集成学习算法Ada Boost(Adaptive Boosting)以整体准确率最优作为目标,难以应对数据错分代价不平衡、数据类间不平衡、数据交叠等问题,引入代价敏感学习(Cost Sensitive Learning),对Ada Boost算法自适应样本更新权重方式进行改进,提出了基于代价敏感改进的自适应增强集成学习算法Cs Ada Boost(Cost Sensitive Adaptive Boosting),该算法在原样本权重更新方式的基础上,进一步提高分类错误的少数类样本权重,同时也适当提高分类错误的多数类样本的权重,以避免过分关注少数类样本而引起整体分类代价的攀升,实现整体分类代价最低的目标。(3)融合数据与算法层面的研究,将AKKPRBF关键特征挖掘算法与Cs Ada Boost集成学习分类算法予以结合,构建基于关键特征挖掘与代价敏感改进的集成学习算法AKKPRBF-Cs Ada Boost(Adaptive KNN and Kernel Density Pearson's Redundancy Based Filter—Cost Sensitive Adaptive Boosting),该算法综合数据层面与算法层面的改进,既可以通过AKKPRBF算法实现不平衡数据集关键特征的自适应挖掘,也可以使用具有代价敏感的集成学习算法Cs Ada Boost在保证整体准确率的前提下完成对少数类样本的有效识别。为验证模型的分类效果,将AKKPRBF-Cs Ada Boost模型应用于不同领域的不平衡数据分类预测中,通过十折交叉验证、百次实验等方式,采用Recall和G-mean作为评价指标,从模型稳定性、准确性以及少数类样本识别率三个维度对算法的有效性进行评估与比较,验证所提出的AKKPRBF-Cs Ada Boost具有广泛的应用领域与实用价值。
暂无评论