版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:天津大学
学位级别:硕士
导师姓名:宫秀军
授予年度:2018年
学科分类:0710[理学-生物学] 12[管理学] 071010[理学-生物化学与分子生物学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081704[工学-应用化学] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0817[工学-化学工程与技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:DNA结合蛋白 stacking模型 逻辑回归 多类特征
摘 要:DNA结合蛋白对DNA修复、DNA复制和DNA修改等生命过程有着重要的意义。使用X射线晶体等实验手段解决预测DNA结合蛋白的问题不仅费时且成本高。目前已经提出很多仅基于序列信息使用机器学习来识别DNA结合蛋白的方法。在这些方法中,关键性的工作在于构建序列的有效表达以及选择合适的分类器。衡量不同的特征与分类器的匹配程度以及不同特征的贡献这两个工作,对于预测性能的提高和生物实验的设计有重要意义。本文提出了堆叠模型来预测DNA结合蛋白,该模型结合了多类特征提取方法,也考虑了特征提取方法和分类器之间的匹配,该模型分为两层,第一层为支持向量机,第二层为逻辑回归。首先,使用四种特征提取方法分别训练第一层的SVM分类器,得到四个不同的SVM分类器,之后,使用逻辑回归结合四个SVM的预测概率,得到模型的输出结果。四种特征提取方法分别为LocalDPP,PSSMDWT,188D以及使用自协方差提取预测的蛋白质二级结构信息的方法。前两个方法是基于序列的进化信息;188D则是基于序列的物化属性和序列组成。堆叠模型在训练集PDB1075上的准确率为83.53%,在独立测试集PDB186上的准确性为81.72%,实验结果表明该模型与现有的大多数模型相比,具有更好的性能,同时能够灵活地协调不同的预测模型使其具有更好的性能。