高通量测序技术的快速发展为研究人员提供了丰富的生物组学数据,组学数据的研究对于癌症等复杂疾病的诊断和治疗具有重要的现实意义。然而,复杂疾病的组学数据通常具有样本量小、数据维度高、噪声数据多的特点,导致大部分传统机器学习方法的分类性能受到限制。如何基于组学数据建立高性能的分类模型,对疾病的诊断研究具有重要的现实意义。本文对组学数据的分类方法进行研究,提出两种集成分类方法。
提出基于多视角信息子空间和特征加权的集成分类方法Stacking-MVISFW(Stacking Based on Multi-View Information Subspace and Feature Weighting)。该方法在Stacking集成学习方法中引入多视角信息子空间技术代替单一的特征空间,从多角度使用不同的特征选择方法构建信息子空间,在保证信息丰富度的同时,去除噪声数据。为充分利用基学习器在不同子空间上的学习差异性,建立特征加权方程对基学习器在不同子空间上的预测结果进行加权,使用加权后的结果构建新的样本向量表示并作为元学习器的输入。本文在11个公共组学数据集上将Stacking-MVISFW方法与其他7种集成分类方法进行分类性能比较。实验结果表明,Stacking-MVISFW的分类准确率、灵敏度和特异性在大多数数据集上优于其他的7种对比方法。
提出基于多角度特征选择和数据增强的集成分类方法DNN-MAFS-WGAN(DNN Based on Multi-Angle Feature Selection and Wasserstein Generative Adversarial Network)。该方法分别使用基于单变量分析、多变量分析和基于网络分析的特征选择方法,从高维组学数据中筛选富含信息的特征,去除噪声数据,从不同角度构造特征子空间;在构造的特征子空间上,使用数据增强技术进行样本扩增,增大训练样本量,建立深度神经网络(Deep Neural Network,DNN);使用多数投票法集成不同特征子空间上的DNN,预测样本标签。本文在11个公共组学数据集上对DNN-MAFS-WGAN方法进行了实验分析,与其他7种集成分类方法进行分类性能比较,实验结果表明DNN-MAFS-WGAN的分类准确率、灵敏度和特异性在大多数数据集上优于其他的7种对比方法。
本文提出的两种方法均属于基于组学数据的集成分类方法。其中Stacking-MVISFW在Stacking集成学习方法基础上引入多视角信息子空间和特征加权技术,DNN-MAFSWGAN通过多角度特征选择和数据增强,结合DNN和多数投票法建立集成分类模型。本文对提出的两种方法在多个数据集上进行了对比实验和消融实验,验证了两个方法对于组学数据分类任务的有效性。
暂无评论