癌症是目前为止最复杂的疾病类型,它的种类繁多,并且每种癌症都会体现出不同的分子特征。为了满足人们更好的生活需求,研究人员需要更深入地了解癌症。科技的不断发展和进步使得研究人员获取癌症基因组信息成为可能,癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库的出现使得更多的研究人员能够根据基因组分析技术去了解癌症在基因层次上发生的改变,根据这些情况去进行实验,分析与判断,从而更好地对癌症进行诊断治疗。它从多个角度对癌症病人的生物组学数据进行记录,其中的DNA甲基化测序技术十分重要,它所测定的DNA甲基化信息中包含着许多重要的基因信息,通过对其进行研究,能够达到控制基因表达,预防与控制疾病发生的目的。而与多数生物组学数据类似,在TCGA数据库中的DNA甲基化数据集上,每个病人的基因信息都有超过48万个特征,但受到了样本数量的限制,无法直接对原始数据集应用分类模型进行预测。传统的机器学习主要是使用特征选择算法对原始特征进行筛选,选择其中效果最好的特征子集来进行实验。而为了研究特征间的内在关系,本研究提出了一种基于稀疏自动编码器的特征工程算法,对数据集的原始特征进行特征构造,并结合常用的特征选择算法,假设经过稀疏自动编码器构造出来的特征能够对DNA甲基化数据集有更好的预测效果。稀疏自动编码器是一种无监督的机器学习模型,它通过计算模型中输入输出之间的误差不断地进行训练,最终将模型的中间变量作为构造变量来进行信息的压缩等工作。目前,它已经应用到图像识别,语音识别,故障诊断甚至是推荐系统当中,在提取数据特征等方面表现出了良好的性能。本研究对TCGA数据库中的六种癌症类型的3494例DNA甲基化样本进行了分析与实验:第一步,使用稀疏自动编码器对原始特征进行构造;第二步,对这些构造特征使用特征选择算法进行排序;第三步,使用交叉验证和增量特征选择等策略与分类算法进行组合来对排序后的构造特征进行分类,将最终的分类结果与原始特征的分类结果进行分析和对比。同时,本研究还对构造特征的组间差异性进行分析,比较了同排名甚至低排名的构造特征与原始特征之间的分类效果差异。最终的实验结果证明:在本研究设计的实验中,能够从不同方向和角度证明基于稀疏自动编码器的特征工程算法的有效性,其中的构造特征优于原始特征。由于稀疏自动编码器对特征有较好的压缩效果,构造特征能够体现出数据中的一些隐藏信息。同时,将这一模型用于甲状腺癌的早期诊断以及非生物信息学领域的工程数据时,同样能够取得相似的改进效果。
暂无评论