随着生物技术快速发展,逐渐成熟的基因芯片技术产生越来越多的基因表达数据,其中通过对肿瘤基因表达数据进行聚类相关分析判定癌症亚型类别成为目前国内外研究的热点。从肿瘤基因表达数据的分子层面进行研究,分析相关致病基因可以判别肿瘤细胞的不同亚型。由于基因表达的自身特点、且技术成本较为高昂,进而基因表达数据普遍存在维度高、样本少、结构复杂等问题,从而探寻一种适应于肿瘤基因表达数据的聚类算法成为研究重心。密度峰值聚类算法(Density Peak Clustering,DPC)算法整体思路简单、参数较少、聚类准确率较高受到国内外研究学者的重点关注,将其应用于肿瘤基因表达数据中判定癌症亚型有着较高的研究价值及意义。本文主要针对肿瘤基因表达数据的特点,对DPC算法进行相适应的改进作为论文整体研究方向,并把改进后的算法应用在肿瘤基因表达数据集上进行癌症患者不同亚型类别的判定。主要研究内容如下:(1)针对传统DPC算法关键性参数需要人为手动进行选取及非簇中心点标签分配策略未考虑数据点间相关性的问题进行研究,提出了一种结合KNN和图标签传播的密度峰值聚类算法(Density Peak Clustering Algorithm Combined with KNN and Label Propagation,DPC-NNLP),该算法主要结合KNN算法思想来计算各样本数据点的局部密度值,并通过KNN算法形成的最近邻点构造局部密度主干区域,最后运用基于密度的KNN图把已知主干区域中数据点的标签分配给剩余点以形成最终的簇,并把该算法应用在多种形状和密度差异性较大的数据中进行聚类仿真实验。(2)针对传统DPC算法应用在高维数据中聚类效果不佳、算法时间复杂度较高的问题进行研究,提出了一种基于粗糙集子空间的密度峰值聚类算法(Density Peak Clustering Based on Rough Set Subspace,DPC-RSS),该算法结合DPC算法的优势,整体采用迭代的过程,在子空间聚类模式的基础上,应用粗糙集理论对聚类思路进行改进。利用DPC算法选取聚类中心点时的合理性以及子空间聚类模式对于高维数据高效的处理能力,有效避免了传统DPC算法在高维数据中的应用问题,把改进后的算法在多个高维数据集上进行了聚类仿真实验。(3)把本文所提出的算法应用在肿瘤细胞亚型类别分析中,首先对肿瘤基因表达数据集预处理,把算法应用在肿瘤基因表达数据集上,通过分析基因间的差异表达实现肿瘤细胞不同亚型类别的判定。并进行多组仿真实验,证明本文所提出的算法能够较为精准的判定肿瘤细胞的亚型类别。
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达...
详细信息
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.
暂无评论