小开放阅读框(small open reading frame,sORF)一般指基因组中能够编码长度在100个氨基酸左右或以内短肽的开放阅读框。它们广泛存在于植物基因组,却因编码短肽而常被基因组注释忽视。随着翻译组学和蛋白质组学测序技术的发展,具有翻译...
详细信息
小开放阅读框(small open reading frame,sORF)一般指基因组中能够编码长度在100个氨基酸左右或以内短肽的开放阅读框。它们广泛存在于植物基因组,却因编码短肽而常被基因组注释忽视。随着翻译组学和蛋白质组学测序技术的发展,具有翻译活性的sORF被证实广泛存在于植物基因组,且参与植物生长发育等重要过程的调控。该文归纳了近些年来植物领域sORF的一些研究进展,主要包括sORF的来源与分类、信息学预测方法和生物学功能等,并基于此对植物sORF未来的研究方向进行了展望。
小开放阅读框(small Open Reading Frame,sORF)是长度小于100个氨基酸的DNA序列,是目前蛋白质科学的研究重点。由于sORF序列长度短,表达水平低,研究人员往往在基因组注释中忽略了sORF。随着测序技术的快速发展,人们发现越来越多的sORF...
详细信息
小开放阅读框(small Open Reading Frame,sORF)是长度小于100个氨基酸的DNA序列,是目前蛋白质科学的研究重点。由于sORF序列长度短,表达水平低,研究人员往往在基因组注释中忽略了sORF。随着测序技术的快速发展,人们发现越来越多的sORF也能够编码蛋白质,且普遍存在于基因组的各个区域,蛋白质编码sORF逐渐成为生物学领域的一个研究热点,也为基因组注释提出了挑战。在此背景下,本工作利用已有sORF数据资源,系统、深入地分析蛋白质编码sORF的序列特征,开发了一种蛋白质编码sORF预测方法,即sORFPredict,为今后研究和识别蛋白质编码sORF提供了新方法和新思路,具体工作包括以下3个方面:1.不同基因组区域蛋白质编码sORF的密码子偏好特征分析蛋白质编码sORF普遍存在于不同物种基因组各区域。在不同生物体中,甚至同一生物体的不同组织中,对同义密码子的使用频率并不是平均分布,而是具有一定的偏好性。而生物体中密码子的使用偏好与基因表达息息相关,为了揭示不同基因组区域蛋白质编码sORF的异同特征,本工作从密码子偏好角度对拟南芥、人及小鼠分别在nc RNA、3'UTR、5'UTR、coding、pesudogene及intronic基因组区域蛋白质编码sORF进行了系统研究,统计分析了不同基因组区域蛋白质编码sORF的长度和GC含量分布,分析了其密码子使用偏好特征,并进行对应分析(Correspondence Of Analysis,COA)。结果表明,在拟南芥的pseudogene区域,Axis1与GC3s显著正相关;在人的3'UTR、5'UTR、coding及intronic四个区域,Axis1与GC3s负相关,而在人的nc RNA和pseudogene两个区域,Axis1与GC3s正相关;在小鼠的nc RNA、3'UTR及coding三个区域,Axis1与GC3s负相关,而在小鼠的5'UTR、pesudogene及intronic两个区域,Axis1与GC3s正相关。进一步分析发现,在小鼠的coding区域,Axis1与CBI负相关,而GC3s与CBI正相关。这些在拟南芥、人及小鼠不同基因组区域的序列特征差异,表明序列的碱基组成与基因表达水平有一定的关系,可用来区分不同基因组区域的蛋白质编码sORF,为今后sORF研究提供一定参考。2.蛋白质编码sORF的预测方法研究序列短、表达水平低等特性对蛋白质编码sORF识别带来巨大挑战。传统序列分析方法及实验方法,包括基因组测序、转录组测序及质谱分析等手段在sORF识别中难以得到有效结果,因此仅靠传统的测序方法分类识别蛋白质编码sORF远远不够,发展有效的sORF计算分类识别技术具有重要意义。本文首先基于随机序列策略构建了两个训练集和七个独立测试集,同时利用已报道的实验验证数据集作为补充测试集,对目前sORF编码能力预测相关的方法进行了系统分析,发现已有方法对sORF预测效果较低,距离实际应用还有较大差距。在此基础上,我们基于序列的密码子使用频率构建了原核预测模型,基于序列的3mer值构建了真核预测模型。该预测方法在具体应用中均得到了明显优于现有方法的预测效果,其中,原核序列预测准确率最高可达到91%,约提高了25%;真核序列预测准确率约为83~87%,约提高了29~34%,这为今后研究和识别蛋白质编码sORF提供了新方法和新思路。3.蛋白质编码sORF的预测平台开发基于上述研究结果,本文搭建了sORF编码潜力的在线预测平台sORFPredict(http://***/sORFPredict),用户可通过输入待测DNA序列,选择相应的预测模型,提交序列,便可以方便快速地预测DNA序列是否可编码,同时可在线查看预测结果,并通过输入序列ID查找指定序列的预测结果,或者通过编码标签对结果进行排序。综上,蛋白质编码sORF在生命活动和基因表达中起着重要的作用,同时也为基因组注释和基因测序带来了巨大挑战,实现蛋白质编码sORF有效分类识别具有重要的科学意义和实际应用价值。本文充分利用生物信息技术和计算分析方法,以多个物种的基因组为载体,系统分析了蛋白质编码sORF的序列特征,深入研究了能有效识别蛋白质编码sORF的方法,为今后sORF的研究与注释提供了一定的数据参考和理论支持。
小开放阅读框(small open reading frames, sORFs)通常是指包含一个起始密码子与终止密码子的少于300个碱基的开放阅读框,在过往的研究中常被认为是无功能的。基因组学和分子生物学的进步揭示了在所有类型的转录本中存在大量的sORFs,并...
详细信息
小开放阅读框(small open reading frames, sORFs)通常是指包含一个起始密码子与终止密码子的少于300个碱基的开放阅读框,在过往的研究中常被认为是无功能的。基因组学和分子生物学的进步揭示了在所有类型的转录本中存在大量的sORFs,并且越来越多的研究表明这些sORFs能够编码功能肽或作为翻译调节因子在多种生理和病理过程中发挥重要作用,这也提示了sORFs可能代表了一个隐藏的功能元件库,可为未来疾病治疗提供新方向和新靶点。受益于生物信息学分析、翻译组学分析、质谱分析等方法的发展,大量的sORFs的鉴定工作快速推进,特别对于sORFs编码的微肽的注释与功能表征具有重要意义,也为后续靶点发现和应用转化等方面的研究提供了良好的基础。作者回顾了sORFs的分类以及其主要的功能,比如编码微肽和调控翻译,随后对目前发现功能性sORFs的方法进行了简单的综述,为未来开展的sORFs编码肽的研究提供重要参考。
小开放阅读框(small Open Reading Frames,sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精...
详细信息
小开放阅读框(small Open Reading Frames,sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精度,提出一种融合DNABERT预训练和数据混合编码策略的sORF-BERT神经网络模型,并引入CAL模块以学习sORFs的多尺度特征。对原核基因组、人类、老鼠、拟南芥以及大肠杆菌数据集进行分析研究,sORF-BERT模型通过预训练与微调之后,能有效地捕获sORFs序列丰富的生物学特征,同时利用CAL更好地学习不同尺度的sORFs特征。将sORF-BERT与已发表的CPPred、DeepCPP、CNCI、CPPred-sORF、MiPiped、PsORFs这6种先进方法进行跨物种实验对比,结果显示sORF-BERT在5个独立测试集上的性能均得到提升,与排名第二的PsORFs相比ACC提升了0.42~18.72个百分点、MCC提升了1.08~11.75个百分点,充分表明了该方法在预测编码sORFs的优越性,有助于推动基础生物学的研究。
暂无评论