单调分类问题是特征与类别之间带有单调性约束的有序分类问题.对于符号数据的单调分类问题已有较好的方法,但对于数值数据,现有的方法分类精度和运行效率有限.提出一种基于决策森林的单调分类方法(monotonic classification method based on decision forest,MCDF),设计采样策略来构造决策树,可以保持数据子集与原数据集分布一致,并通过样本权重避免非单调数据的影响,在保持较高分类精度的同时有效提高了运行效率,同时这种策略可以自动确定决策森林中决策树的个数.在决策森林进行分类时,给出了决策冲突时的解决方法.提出的方法既可以处理符号数据,也可以处理数值数据.在人造数据集、UCI及真实数据集上的实验数据表明:该方法可以提高单调分类性能和运行效率,缩短分类规则的长度,解决数据集规模较大的单调分类问题.
区间型数据(Interval data,ID)是属性特征取值为区间的一类数据,针对区间型数据的分类问题,本文提出一种高斯区间核支持向量机分类模型(Support vector machine based on Gauss interval kernel,GIK_SVM)。该方法引入半宽因子,在区间型...
详细信息
区间型数据(Interval data,ID)是属性特征取值为区间的一类数据,针对区间型数据的分类问题,本文提出一种高斯区间核支持向量机分类模型(Support vector machine based on Gauss interval kernel,GIK_SVM)。该方法引入半宽因子,在区间型数据的中值与半宽度之间进行折中,并据此构造高斯区间核用以衡量两个区间型数据间的相似性,然后用SVM模型进行分类。在人造数据集和真实数据集上的实验结果表明,本文提出的算法对区间数据有更好的分类性能。
k近邻(k nearest neighbor,kNN)分类作为数据挖掘中最典型的算法之一,以较高的泛化性能以及充足的理论基础被广泛应用。然而kNN在测试时需要计算待识别实例与所有训练实例之间的距离,以至于在面对大规模数据时需要大量的时间。为此,提出一种基于分层抽样的kNN加速算法(KNN based on stratified sampling,SS-kNN)。首先将训练实例所在的空间划分为若干个实例个数相等的区域,然后从每个区域内抽取实例,最后判定待识别实例落入划分区域中的哪一个,并从此区域以及相邻区域抽取的实例中寻找其k个近邻。与原始kNN算法以及基于随机抽样的kNN算法相比,SSkNN算法可以获得与其相近分类精度,但将其运行速度分别提高大约399倍和16倍。
暂无评论