随着临床和生物大数据的极大丰富,机器学习技术通过结合多方面的信息以预测个体的健康结局,在科研及学术论文中应用日益广泛,但关键信息报告的不足也逐渐显现,包括数据偏倚、模型对不同群体的公平性、数据质量和适用性问题,以及在真实临床环境中保持预测准确性和可解释性的难度等,增加了将预测模型安全有效地应用于临床实践的复杂性。针对这些问题,多变量预测模型个体预后或诊断的透明报告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+人工智能(artificial intelligence,AI)声明在TRIPOD的基础上提出了针对机器学习模型的报告规范,以提升模型的透明性、可重复性和健康公平性,从而改善机器学习模型的应用质量。当前,国内基于机器学习技术的预测模型研究日益增多。为帮助国内读者更好地理解和应用TRIPOD+AI,笔者结合实例对其进行了解读,希望为研究人员报告质量提升提供支持。
目的以2型糖尿病为例,探讨具有层次聚集性变量的多水平模型的构建。方法用2015年蚌埠市龙子湖区慢性非传染性疾病调查中的2型糖尿病相关数据作为研究案例,采用R 3.3.1软件对2型糖尿病的影响因素进行单水平和多水平Logistic回归分析。结果单水平Logistic回归和多水平Logistic回归分析筛选的影响因素不完全一致,主要有年龄、糖尿病家族史、高血压病史、水果摄入频率、糖化血红蛋白和体质指数(body mass index,BMI)。非超重(BMI≤23.9 kg/m^2)与超重(BMI≥24.0 kg/m^2)在单水平Logistic回归中有差异(均有P<0.05),在多水平Logistic回归中显示无差异(均有P>0.05)。赤池信息准则(akaike information criterion,AIC)在单水平和多水平Logistic回归模型的值分别为1 550.2和1 535.3。结论单水平与多水平Logistic回归模型所得出的结论并不完全一致,多水平模型在具有层次聚集性的数据分析中更具有优势。基于2型糖尿病的层次聚集性,应该以社区服务站为基础开展2型糖尿病的防控工作。
暂无评论