版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201810468630.X
公 开 号:CN108595914A
代 理 人:何为;王娟
代理机构:43113 长沙正奇专利事务所有限责任公司
专利类型:发明申请
申 请 日:20180928
公 开 日:20180516
专利主分类号:G06F19/18(20110101)
关 键 词:训练集 高维 预测 线粒体RNA 特征筛选 烟草 测试集 位点 线粒体全基因组序列 高精度预测 目的基因 全基因组 位点信息 有效模型 有效特征 最优模型 点数据 负样本 计算量 拟南芥 数据集 验证集 比对 下载 样本 油菜 测试 融合 分类 保留 保证
摘 要:本发明公开了一种烟草线粒体RNA编辑位点高精度预测方法,下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;从全基因组中得到负样本;确定最优特征;针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测,得到有效模型;确定最优模型;本发明适用于烟草线粒体RNA编辑位点预测,减少了预测的计算量,并保证了预测的高精度。