目的探讨发病日期影响因子,估计缺失发病日期,完善新型冠状病毒肺炎病例数据库,为开展疫情大数据分析提供参考依据。方法基于江西省各级卫生健康委员会公开的2020年1月22日-2月25日新增2019-n Co V确诊数据,建立时间序列数据库,分析发...
详细信息
目的探讨发病日期影响因子,估计缺失发病日期,完善新型冠状病毒肺炎病例数据库,为开展疫情大数据分析提供参考依据。方法基于江西省各级卫生健康委员会公开的2020年1月22日-2月25日新增2019-n Co V确诊数据,建立时间序列数据库,分析发病日期与确诊日期的分布特征。采用随机森林算法,研究确诊日期、患者信息(性别、年龄、有无去过武汉等)、患者居住地经纬度、患者居住地与南昌的距离等因子与发病日期的关系。以均方根误差(RMSE)、决定系数(R2)2个指标评价模型估计准确度,并通过计算精度平均下降率给出了各影响因子对发病日期估计的重要性排序。结果确诊日期在影响发病日期估计方面发挥了决定性作用,距离和经纬度也在是模型估计中的重要因子。70%左右病例发病日期与确诊日期存在2~7天时间差,其中3天为最多数;利用随机森林算法对缺失的发病日期模拟估计,检验结果显示发病日期最优估计值R2为0.98,表明估计值与实际值基本吻合,模型估计效果好。结论随机森林模型能够比较全面地描述发病日期的影响因子,且直观、便捷,可用于指导完善患者信息和修正传染病传播预测参数。
暂无评论