咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度表示学习的细胞器蛋白识别方法研究 收藏
基于深度表示学习的细胞器蛋白识别方法研究

基于深度表示学习的细胞器蛋白识别方法研究

作     者:隋佳男 

作者单位:济南大学 

学位级别:硕士

导师姓名:陈月辉

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:细胞器蛋白识别 深度表示学习 多头注意力 图卷积神经网络 多尺度特征 

摘      要:细胞器是细胞中具有特定形态和功能的微结构,分布在细胞质中,构成细胞的基本组成部分,为细胞的正常运作提供支持。细胞器蛋白是一类附着或分布在细胞器内的蛋白质,对于细胞器发挥功能具有关键作用。蛋白质在细胞器中的异常表达可能导致细胞器功能失调,从而引发多种疾病。准确识别细胞器蛋白的类型对于深入研究其在细胞活动中的作用以及疾病治疗药物的研发具有重要意义。随着机器学习的不断发展,越来越多的模型被设计用于细胞器蛋白的识别。然而,目前的模型大多采用传统的手动特征提取方法,例如氨基酸组成和物理化学性质,这些方法在捕捉蛋白质序列中的复杂模式和氨基酸之间的相互作用方面存在一定的局限性。相比之下,在大型蛋白质数据库上训练的深度表示学习模型能够自动学习层次化的特征表示,有效地捕捉蛋白质序列的复杂模式和相互关系。另一方面,细胞器蛋白特有的结构特征是其定位在目标细胞器并发挥作用的关键,而以往的研究忽略了这一特征,导致模型识别精度不高。本文专注于利用深度表示学习方法开展细胞器蛋白识别研究,旨在突破传统特征提取方法的局限性。研究中全面深入地探讨了蛋白质序列的复杂性及其空间结构的重要性,并成功实现了对细胞器蛋白的高效、准确识别。具体完成的主要工作和取得的成果如下: (1)提出了基于深度表示学习的过氧化酶体蛋白识别模型TAPE-Pero。该模型利用深度表示学习模型TAPE、Seq Vec和Pro SE提取过氧化酶体蛋白特征,通过合成少数过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)缓解数据集样本中正负样本不均衡问题,避免模型分类出现较明显的偏差。然后利用方差分析法(Analysis of Variance,ANOVA)、弹性回归网络(Elastic Net)和博鲁塔算法(Boruta)进行特征选择,比较不同的特征选择方法并对初始特征进行筛选。之后,将筛选的特征输入到传统机器学习模型中。TAPE-Pero模型在十折交叉验证和双交叉验证中,准确率分别达到了98.97%和92.34%。最后,本文将构建的TAPE-Pero模型与当前最优模型In-Pero进行了对比,结果表明本研究的模型性能更加出色。 (2)提出了基于深度表示学习和蛋白质结构特征的植物液泡蛋白识别模型Graph Idn。该模型采用了深度表示学习模型Seq Vec,将蛋白质序列映射为连续的特征向量。同时,利用Alpha Fold2算法获取了蛋白质的结构信息,进而计算得到蛋白质的接触图。最后,将接触图输入到图卷积神经网络中提取蛋白质的结构特征。为了使模型更全面地捕捉蛋白质的复杂空间结构,本文引入了多头注意力。多头注意力的每个“头能独立地学习和关注不同的特征,这有助于捕获蛋白质结构中更细微和复杂的模式。在独立测试集和五折交叉验证实验中,Graph Idn模型表现出色,其准确率分别达到了88.51%和89.93%,超过了先前的预测器,达到了领先水平。值得关注的是,本文实验中发现利用Seq Vec对蛋白质序列进行嵌入作为图神经网络的节点特征,有助于模型更好地提取蛋白质的结构特征。这项研究首次提出了利用预测的蛋白质拓扑结构图来识别植物液泡蛋白的模型,为相关领域的研究提供了新的见解和方法。 (3)提出了基于深度表示学习和多尺度特征的亚高尔基体蛋白识别模型SAGIDN。首先,使用深度表示学习模型Seq Vec将蛋白质序列转化为向量。之后,通过基于Text CNN的蛋白质序列局部特征提取模块和基于图卷积神经网络的蛋白质全局空间结构特征提取模块获取蛋白质不同尺度的特征。随后,将这两种尺度的特征进行融合。最终,所提出的SAGIDN模型在独立测试集和十折交叉验证中分别取得了98.4%和96.4%的准确率,显著超过先前大多数预测方法。为了评估模型的通用性,本文进行了额外实验,将其应用于其它细胞器蛋白的识别,包括植物液泡、过氧化酶体和亚线粒体,同样取得了不错的效果。这表明SAGIDN具有成为通用细胞器蛋白识别模型的潜力,有望应用于不同类型的细胞器蛋白识别任务。 本文系统性地提出了三个细胞器蛋白识别模型,分别为TAPE-Pero、Graph Idn和SAGIDN,它们在处理样本不均衡、捕捉蛋白质复杂结构特征以及识别不同细胞器蛋白方面均表现出色。这些模型不仅显著提高了识别准确率,还展现了在不同细胞器蛋白识别任务中的通用性和潜力,为细胞器蛋白的准确识别与功能分析提供了强有力的工具和方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分