版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:哈尔滨医科大学卫生统计学教研室150081 哈尔滨医科大学生物信息教研室
出 版 物:《中国卫生统计》 (Chinese Journal of Health Statistics)
年 卷 期:2015年第32卷第1期
页 面:49-53页
学科分类:1004[医学-公共卫生与预防医学(可授医学、理学学位)] 100401[医学-流行病与卫生统计学] 10[医学]
基 金:国家自然科学基金资助(81172767) 高等学校博士学科专项基金(20122307110004)
摘 要:目的探讨随机森林(RF)的变量捕获方法在高维数据变量筛选中的应用。方法通过模拟实验和实际数据分析,对两种变量捕获(***,***)和逐步剔除方法(var SelRF)进行比较,并通过选入变量的数目、模型预测错误率(PE)和受试者工作特征曲线下面积(AUC)对其进行评价。结果模拟实验表明,在变量具有联合作用、交互作用和弱独立作用情况下,变量捕获方法均明显优于var SelRF方法和全变量VIMP排序方法;实际数据分析结果表明,变量捕获方法筛选变量结果稳定,并能够保证良好的预测效果。结论变量捕获方法适用于高维数据的变量筛选,具有实用价值。