透析病人30天再住院风险预测模型可以识别再住院风险高的病人,有助于医生对患者进行有效管理从而减少再入院率.已发表的研究使用Logistic回归或Cox回归预测透析患者的30天再住院风险,但是预测效果较为一般,性能有待提升.本研究基于集成学习中的AdaBoost算法建立透析患者30天再住院风险预测模型,使用全国715家三级医院慢性肾脏病住院病案首页数据确定透析患者的再入院情况.进行建模的数据被标记为发生30天再入院和未发生30天再入院两个类别,针对正负样本比例差异较大的情况,本研究采用自适应合成采样(Adaptive Synthetic Sampling,ADASYN)算法处理不平衡数据,ADASYN算法显著的提升了预测模型的性能.对数据进行预处理后,运用AdaBoost算法预测透析患者的30天再住院风险,并与机器学习领域较为常用的分类和回归树(CART)和Logistic回归模型的预测效果进行比较.使用十折交叉验证后的平均受试者工作特征曲线下面积(Area Under the Receiver Operation Characteristic Curve,AUROC),平均准确率,平均精确率,平均召回率和平均F1-measure来评价模型的性能,并绘制三种模型的受试者工作特征(ROC)曲线,模型AUROC越大预测性能越好.基于AdaBoost算法的预测模型AUROC为0.858,略高于CART(AUROC =0.822),远高于Logistic回归(AUROC=0.583);准确率,精确率,召回率和F1-measure的结果也是AdaBoost最佳,CART模型次之,Logistic回归最差.总体结果表明,AdaBoost在三种模型中表现出最佳的预测性能,较好预测了即将再住院治疗的透析患者,该模型具有临床应用的前景.
住院时间(length of stay, LOS)是判断患者病情严重程度,评价医院医疗卫生资源利用效率的有效指标.目前对住院时间预测的有效模型尚处于探索阶段.随机森林(random forest,RF)是一种基于集成学习思想的机器学习算法,在医疗大数据领域得...
住院时间(length of stay, LOS)是判断患者病情严重程度,评价医院医疗卫生资源利用效率的有效指标.目前对住院时间预测的有效模型尚处于探索阶段.随机森林(random forest,RF)是一种基于集成学习思想的机器学习算法,在医疗大数据领域得到了良好的应用.本研究使用随机森林算法构建透析患者住院时间预测模型.以国内715家三级医院的医院质量监测系统住院病案首页数据作为数据源,应用SMOTE(synthetic minority over-sampling technique)采样方法处理不平衡数据.SMOTE方法是一种改进的采样方法,可以明显提升分类器性能.模型性能评价指标使用受试者工作特征曲线下面积(area under the receiver operation characteristic curve, AUROC)、均方根误差(root mean squared error, RMSE)、灵敏度、特异度、约登指数和准确率,并比较随机森林模型与传统Logistic回归模型的预测效果.结果 显示,随机森林模型的AUROC比Logistic回归模型高出18个百分点,两者分别为0.79和0.61;准确率比Logistic回归模型高出13个百分点,分别为71.12%和58.04%.预测性能各指标均表明,随机森林模型表现明显优于Logistic回归模型.随机森林模型对高维数据及共线性数据有良好的适应性,相比Logistic回归模型,预测准确度高,更适合应用于透析患者住院时间的预测.本研究基于随机森林算法构建的透析患者住院时间预测模型,可帮助临床医生对透析病人进行危险度分级,提示可实行的控制医疗费用的措施,减少透析患者的医疗负担.
暂无评论