版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:厦门大学化学化工学院现代分析科学重点实验室福建厦门361005
出 版 物:《厦门大学学报(自然科学版)》 (Journal of Xiamen University:Natural Science)
年 卷 期:2009年第48卷第5期
页 面:704-708页
核心收录:
基 金:福建省自然科学基金(X0750052) 近海海洋环境科学国家重点实验室(厦门大学)开放项目资助
主 题:蛋白质二级结构预测 偏最小二乘法变量筛选 海量数据建模 三联氨基酸
摘 要:蛋白质的一级结构或序列与二级结构的关系在蛋白质结构研究中是很重要的,通过建立模型的方法来研究这种关系.在文献中已有的模型(蛋白质一级结构中的二联氨基酸与蛋白质二级结构的模型)的基础上,建立了蛋白质一级结构中的三联氨基酸个数与蛋白质二级结构个数模型.该模型能够较准确地反映蛋白质的一级结构或序列与蛋白质的二级结构的关系,比较适合应用于氨基酸序列长度变化较大的建模数据,同二联氨基酸与二级结构模型比较,由于三联氨基酸含有更多氨基酸之间的耦合信息,该模型的拟合精度更高.由于蛋白质一级结构中的三联氨基酸的种类数很大(为4200),用以建模的变量数就很大,同时从DSSP数据库得到的样本量也很大(为11600),用以建模的数据量很大.研究结果表明,PLS变量筛选法是一种建立大数据模型有效的方法,可有效地处理变量数为4200,样本数为11600这样大数据量的建模问题.