针对非平衡数据的再平衡问题,提出了一种基于时间序列模型的过采样算法.首先,提出了一种确定性数据转化为随机数据方法,把少数类数据转化为时间序列;其次,对经少数类数据转化而成的时间序列进行平稳性检验,并进行平稳化处理;再次,对平稳后的序列建立合适的时间序列模型并进行预报,从而使数据集达到平衡.最后,从UCI(University of Californialrvine)和KEEL(Knowledge Extraction based on Evolutionary Learning)数据库中选择6组数据集,将所提算法与其他常用的过采样算法进行比较,并使用决策树分类器进行分类实验.利用评价指标对分类实验结果进行评判,结果表明了本文所提算法的有效性.
众所周知,随着数据科学的快速发展,不平衡数据集的分类问题成为数据分析领域的重要内容之一.在现实生活中,它涉及各种实际问题,如信用卡欺诈检测、网络攻击识别等.在实践中,完全平衡的数据集并不多见.而且对少数类数据给予的误分所带来的代价高于多数类数据.所以如何改进采样算法来使得不平衡数据集转变为平衡的数据集,这是具有重大的现实意义的.许多研究人员分别从分类算法和不平衡数据集这两方面提出处理不平衡数据集分类问题的方法.鉴于此问题,本文研究工作如下:(1)对不平衡数据集的分类问题的研究背景和意义进行阐述,叙述国内外的研究现状.特别是对K-means算法、SMOTE算法、k-近邻和支持向量机算法进行详细介绍.(2)为了提升欠采样算法的有效性,本文设计出一种基于聚类的欠采样算法,即USCL(An under-sampling method based on clustering)算法.该算法的基本思路:各自取不一样的聚类数目,对训练集中的多数类数据进行若干次聚类,然后用聚类中心代替多数类数据,并与少数类数据构成若干个新训练集,用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后用剩余的分类器对分类结果进行投票表决.理论分析与实验结果表明:USCL算法能有效地改善不平衡数据集的不平衡性.(3)通过研究SMOTE(Synthetic Minority Oversampling Technique)算法的优缺点,本文设计出一种基于聚类的OVSCL(An over-sampling method based on clustering)算法.该算法的基本思路:少数类样本被划分为三类,对其中的边界样本采用聚类方法,通过对聚类个数的选择,新的边界样本用聚类中心替代.根据新设置的采样倍率,按照SMOTE的基本原理合成新的样本,并和原训练集中的多数类样本合成新训练集,用训练集训练分类器并对分类结果进行投票表决.通过理论分析和实验证明,BorderlineSMOTE算法、Refined Borderline-SMOTE算法、OVSCLC(An over-sampling based on clustering without choices)算法和本文的OVSCL算法都达到了改进SMOTE算法的目的,但是本文设计的OVSCL算法更有利于提高少数类样本的分类精度.
暂无评论