boosting算法起源于PAC(probably approximately correct)学习模型,由Schapire在1990年首次提出,是一种基于一系列基础分类器的组合分类模型算法,基础分类器可以选择任意一种弱分类模型(如决策树)。随后,Freund和Schapire在此基础上...
详细信息
boosting算法起源于PAC(probably approximately correct)学习模型,由Schapire在1990年首次提出,是一种基于一系列基础分类器的组合分类模型算法,基础分类器可以选择任意一种弱分类模型(如决策树)。随后,Freund和Schapire在此基础上于1995年提出了著名的Adaboost算法.
目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。
暂无评论