数据挖掘方法是一种有效的信息抽取和发现方法,这种方法是把数据从医院的数据库系统中提取出来,然后对提取出的数据进行分析评估,找到数据中隐藏的价值,为医疗诊断提供科学依据。对于数据挖掘算法中的随机森林算法(Random Forest,RF)具有可以处理非线性、高维度数据集的优点,因此在很多的领域中得到了广泛的应用。然而,RF算法存在着两个问题:第一,对该算法提出的改进方法都没有得到理论证明从而不能用于实际应用中;第二,对RF算法效率提升的改进仍然有很多不足之处。根据上述存在问题本文分别做出相应分析,提出了一种基于最优抽样倍数和不放回抽样的随机森林算法(Optimal Sampling Times and No Release Random Forest Algorithm,OSNR-RF),对提出的优化算法的合理性进行实验验证。论文主要内容如下:首先,介绍数据挖掘的基本理论知识,说明数据预处理是数据挖掘工作中必不可少的一步,并且详细介绍数据预处理方法中的特征选择算法。同时介绍正规化回归模型以及该模型中的岭回归(Ridge Regression,RR)模型,正规化回归模型具有预测准确率高、模型可解释性强的特点,同时RR模型本身具有无偏性、有效性、相合性和渐进正态性等优良的参数估计性质,采用RR模型对数据做变量选择;其次,对随机森林算法做简要介绍,研究训练集样本量的改变以及抽样方法的改进对原始算法的影响。经过一系列的实验验证得出:(1)改变随机森林的抽样倍数,提出并证明了随着抽样倍数的改变随机森林算法分类的错误率也在降低,经过反复的实验证明了在最优的重复抽样区间(取N抽样方法替代原始随机森林算法的有放回随机抽样方法减少了随机森林算法的运行时间,使得时间效率得到提高。将前面两个改进思想综合起来提出了OSNR-RF算法,本文不仅从理论上进行证明它的合理性,同时进行了实验验证,结果表明该算法具有更高的分类效率。最后,实验验证数据集采用了UCI上的标准数据集和某妇幼保健院乳腺癌数据集,数据预处理部分采用RR模型解决数据多重共线性的问题。使用OSNR-RF算法对处理过的数据集进行实验,在分类精度和训练效率上分别进行了对比,做详细的性能测试,通过对比得出,OSNR-RF算法在分类性能上有所提升,综合性能更加稳定。
暂无评论