全基因组预测是一种利用覆盖全基因组标记预测未知表型的新兴技术,随着测序技术的不断更新和日趋成熟,基因分型成本越来越低,全基因组预测逐渐被推广应用于动植物选育以及人类疾病风险评分。统计方法在全基因组预测中起到至关重要的作用,直接影响表型的预测效果。基于亲缘关系的BLUP系列方法计算过程简单,具有较高的计算效率,但由于其模型假设粗糙,预测准确性往往不理想;基于标记效应的Bayes系列方法模型假设灵活,具有较高的预测准确性,但由于其复杂的参数求解过程,计算效率低下。如何兼顾高准确性及高计算效率的双重优势,开发出快、准、稳的全基因组预测方法,是当前的研究热点和难点。本研究提出了一种利用机器学习过程提高复杂性状预测准确性及计算效率的方法,名为“Kinship Adjusted Multiple Loci Best Linear Unbaised Prediction”,简称KAML。其机器学习过程整合了交叉验证、多元回归、网格搜索和二分法迭代等算法,能够准确地将大效应标记纳入线性混合模型作为协变量,并同时将标记贡献进行权重,构建性状特异的基因组亲缘关系矩阵作为随机效应项。通过模型选择过程自动切换5种不同模型,能够覆盖各类不同复杂程度遗传构建的性状。整个机器学习过程可实现高效并行运算,能够在提高预测准确性的同时保持较高的计算效率。利用模拟表型、人类疾病以及动植物经济性状与多种方法进行比较,评估结果显示:(1)KAML能够根据性状的遗传构建复杂程度不同,利用机器学习过程准确地选择可作为协变量的大效应标记,优化出标记权重合理的基因组亲缘关系矩阵,智能地选择最优预测模型,证实了机器学习中算法的合理性、有效性及准确性;(2)KAML的预测准确性显著高于线性混合模型GBLUP,近似等同或略优于BSLMM、Bayes R等Bayes方法,且在多物种不同表型上具有更好的稳定性,计算效率高于Bayes方法数百倍;(3)利用部分群体运行KAML所获得的预估参数可直接应用到更大群体,KAML在保持高预测准确性的同时,计算效率几乎等同于GBLUP方法,展现了KAML处理育种大数据的优势;(4)KAML可与一步法SSGBLUP进行整合,利用KAML优化的基因组关系矩阵能同时提高SSGBLUP对分型及未分型个体的预测准确性,进一步拓展了KAML在畜禽基因组育种及人类疾病风险预测中的应用。凭借着预测准确性和计算效率的双重优势,KAML将成为全基因组预测领域新的重要方法和工具。
暂无评论