2019年年底,中国的湖北省武汉市首次发现一种新型的冠状病毒SARS-CoV-2。截止目前,该病毒已在全球范围内广泛传播。SARS-CoV-2的快速传播和变异无疑加大了探索SARS-CoV-2源头的困难程度,同时也使病毒溯源研究变得有意义。系统发育分析是病毒溯源研究中最常用的方法,然而,现有研究使用的SARS-CoV-2基因序列数据量比较有限,并且数据涉及的区域很少覆盖至全球。针对上述不足,本文做了以下工作:1)针对SARS-CoV-2基因序列使用量不足的问题,本文从公开数据库中获取了数万条SARS-CoV-2基因序列。为了在降低系统发育分析时间复杂度的同时提高基因序列使用量,本文采用分治法应对大型基因数据集,并设计了基于系统发育分析的SARS-CoV-2共同祖先时间(the time most recent common ancestor,tMRCA)估计框架。该方法的核心思想是先分批处理原始数据集,再通过非线性最小二乘法拟合的方式合并多批tMRCA。其中,分批操作既能够降低分析的时间复杂度,又能够削弱基因序列间差异对估算产生的不利影响。另外,为了提高tMRCA的准确性,本文设计了 SARS-CoV-2基因序列筛选准则,以获取高质量数据,并针对估算结果不合理的批次提出了优化方案。实验结果表明,该框架能够推断出合理的、具有参考价值的tMRCA,并且与现有方法相比,tMRCA的准确性有所提升。2)针对SARS-CoV-2覆盖区域不全的问题,本文使用数据的采集地点覆盖了全球120多个国家,估算了在各大洲、各国及中国境内流行的SARS-CoV-2的tMRCA。并且,对疫情形势复杂地区的基因序列进行特征分析,根据分析结果设计特定方案提高tMRCA的准确性。基于病毒出现的时间线,本文提出了病毒来源地推断算法,对病毒在不同地理尺度上的扩散路径进行推断。该方法对采集时间处于关注时段的基因序列构建单倍型网络,根据单倍型间的进化关系完成扩散路径的推断。实验结果表明,本文所提算法得出的SARS-CoV-2来源地基本正确,推断出的扩散路径具有参考价值。
暂无评论