背景与目的:乳腺癌是全球重大公共卫生问题,骨是乳腺癌远处转移最常见的部位,约占所有转移病例的70%。乳腺癌骨转移可引起一系列并发症,包括剧烈疼痛、病理性骨折、高钙血症、脊髓压迫等,给患者身体活动带来极大不便,影响生活质量。转移性复发是乳腺癌患者死亡的主要原因。因此迫切需要构建乳腺癌骨转移预测模型,以识别具有高骨转移风险的患者。本研究旨在开发基于机器学习的预测模型来预测乳腺癌发生骨转移的概率。方法:从监测、流行病学和最终结果(The Surveillance,Epidemiology,and End Results,SEER)数据库中提取2010年—2015年诊断的乳腺癌患者数据,并通过最小绝对收敛和选择算子(least absolute shrinkage and selection operator,LASSO)回归、单因素和多因素logistic回归分析对变量进行筛选,纳入具有统计学意义的风险因素构建预测模型。本研究使用决策树、弹性网络、K最近邻、轻量级梯度提升机、logistic回归、神经网络、随机森林、支持向量机和极限梯度提升等9种机器学习算法,通过随机搜索和5倍交叉验证调整模型超参数,构建乳腺癌骨转移预测模型。利用受试者工作特征曲线(receiver operating characteristic,ROC)的曲线下面积(area under curve,AUC)、校准曲线和决策曲线对模型进行评价,得到最优模型,并基于最优模型分析变量的重要性。最后,应用最优模型建立预测乳腺癌骨转移风险的网络计算器。本队列研究严格遵循《加强流行病学中观察性研究报告质量》(Strengthening the Reporting of Observational Studies in Epidemiology,STROBE)指南中的各项条目。结果:本研究纳入10106例乳腺癌患者,训练集7073例患者,验证集3033例患者,在这两个队列中,分别有4494例(63.5%)和1927例(63.5%)患者发生骨转移。种族、病理学分级、雌激素受体(estrogen receptor,ER)状态、孕激素受体(progesterone receptor,PR)状态、人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)状态、N分期、肺转移、放疗、化疗、手术是骨转移的独立预测因素。使用训练集和验证集对模型进行验证,综合ROC曲线的AUC、校准曲线和决策曲线等评价指标发现极限梯度提升算法优于其他机器学习算法。最后,本研究利用极限梯度提升算法构建预测乳腺癌骨转移的网络计算器,链接为https://***/DynNomapp/。结论:本研究开发基于机器学习的预测模型,用于预测乳腺癌患者发生骨转移的概率,希望有助于临床医师作出更合理的治疗决策。
暂无评论