转录因子是在基因组中被发现的一组蛋白质,能够与特定DNA区域结合从而调控基因的表达。随着基因组技术的发展,许多相关研究都表明,转录因子在细胞信号传导中起关键作用,是转录调控的关键元件,更是调控基因表达所必需的元素。转录因子结合位点是一种特殊的DNA序列,它可以与转录因子相结合以调控转录过程。然而,由于生物数据的丰富性,识别潜在的转录因子结合位点一直是一项重要但困难的任务。以往所使用电泳迁移率变化分析、Ch IP-seq等生化实验技术测定的转录因子结合位点相对较少,并且效率低、代价高。因而利用计算生物学技术实现快速、科学、准确的转录因子结合位点预测具有重要的理论意义。当前流行的转录因子结合位点预测算法包括基于序列计算的转录因子结合位点预测算法和基于机器学习的转录因子结合位点预测算法,这两种类型的预测算法各有优点,但均未实现高效率高精度的转录因子结合位点预测,因此本文的主要工作是对相关的预测算法做进一步的改进和优化。转录因子结合位点预测的主要困难在于特征选择融合与预测模型构建。为了解决特征选择和融合的问题,本文通过组合特征编码来有效提高特征提取能力,并且融合DNA形状数据以捕获原始特征中更多的差异性信息。而对于预测模型构建问题,本文使用机器学习相关方法克服了传统预测算法的弊端,并利用带权多粒度扫描策略和注意力机制提升了预测结果的精度,而且在一定程度上提升了转录因子的结合位点的预测效率。综上,针对转录因子结合位点预测算法,本文分析和归纳了此类算法的研究现状和问题,介绍了传统生物试验方法、基于序列计算的预测方法和基于机器学习的预测方法等相关DNA位点预测算法,明确了本文研究的内容和算法的创新点。本文的主要工作如下:1、本文提出了一种基于带权多粒度扫描策略的转录因子结合位点预测算法(Weighted Multi-Grained Scanning of Transcription Factors,WMS_TF)。为了更好地提取DNA序列特征,WMS_TF摒弃了只使用单一碱基特征的思想,结合了多碱基特征编码来提取碱基间的信号特征,提高了分类预测结果的准确率。同时,为了打破传统深度森林在多粒度扫描阶段同视所有特征的局限,WMS_TF使用了带权多粒度扫描策略,在扫描特征向量的同时也对权重向量进行扫描,并将扫描得到的向量相乘,以保障模型训练时的严谨性从而降低分类预测的误差。最后,对较高权重的特征进行了分析,进一步证明了多碱基特征编码的必要性,同时也为其它转录因子结合位点预测研究奠定了基础。实验结果证明,WMS_TF能够实现高准确度的转录因子结合位点预测。2、本文提出了一种基于注意力机制的转录因子结合位点预测算法(LSTM and Attentional Mechanisms of Transcription Factors,LAM_TF)。为了更好地表示结合位点的特征,除了使用DNA序列数据外,本文还融合了DNA形状数据作为预测转录因子结合位点的初始数据,并且使用了长短期记忆网络(Long Short-Term Memory,LSTM)捕获DNA序列之间的长期依赖性。同时,LAM_TF中使用了注意力机制,使算法能够自主地学习到DNA序列中单个碱基或片段的重要程度,克服了目前已有算法难以高效地捕捉高价值碱基对基因调控作用的难题。最后利用预测输出模块输出对应样本的结合亲和力得分。实验结果证明,LAM_TF提高了转录因子结合位点的预测能力。本文对转录因子结合位点预测过程中的特征选择和融合与预测模型构建进行了深入研究。对传统的DNA序列特征表示方法进行了优化,在提取单碱基特征的同时捕获了碱基间的信号特征。此外,本文还设计了两种有效的预测算法,提高了预测结果的精准度。本文通过实验验证了WMS_TF算法和LAM_TF算法能够提升转录因子结合位点预测的精准度和效率,为更深层次的转录因子结合位点预测研究提供了依据。
暂无评论