住院时间(length of stay, LOS)是判断患者病情严重程度,评价医院医疗卫生资源利用效率的有效指标.目前对住院时间预测的有效模型尚处于探索阶段.随机森林(random forest,RF)是一种基于集成学习思想的机器学习算法,在医疗大数据领域得...
住院时间(length of stay, LOS)是判断患者病情严重程度,评价医院医疗卫生资源利用效率的有效指标.目前对住院时间预测的有效模型尚处于探索阶段.随机森林(random forest,RF)是一种基于集成学习思想的机器学习算法,在医疗大数据领域得到了良好的应用.本研究使用随机森林算法构建透析患者住院时间预测模型.以国内715家三级医院的医院质量监测系统住院病案首页数据作为数据源,应用SMOTE(synthetic minority over-sampling technique)采样方法处理不平衡数据.SMOTE方法是一种改进的采样方法,可以明显提升分类器性能.模型性能评价指标使用受试者工作特征曲线下面积(area under the receiver operation characteristic curve, AUROC)、均方根误差(root mean squared error, RMSE)、灵敏度、特异度、约登指数和准确率,并比较随机森林模型与传统Logistic回归模型的预测效果.结果 显示,随机森林模型的AUROC比Logistic回归模型高出18个百分点,两者分别为0.79和0.61;准确率比Logistic回归模型高出13个百分点,分别为71.12%和58.04%.预测性能各指标均表明,随机森林模型表现明显优于Logistic回归模型.随机森林模型对高维数据及共线性数据有良好的适应性,相比Logistic回归模型,预测准确度高,更适合应用于透析患者住院时间的预测.本研究基于随机森林算法构建的透析患者住院时间预测模型,可帮助临床医生对透析病人进行危险度分级,提示可实行的控制医疗费用的措施,减少透析患者的医疗负担.
暂无评论