蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物识别中应用广泛。针对此类算法最终结果受种子节点的影响较大,并且在簇的形成过程中搜索空间有限等问题,提出了一种基于遗传算法的蛋白质复合物识别算法GAGC(genetic algorithm based graph clustering),其中个体表示聚类结果(类别之间可能存在重叠节点),以F-measure值作为种群进化的目标函数。算法采用IPCA(improvement development clustering algorithm)算法产生初始种群;针对初始种群,设计了染色体对齐方式以进行交叉操作产生下一代种群。通过与DPClus、MCODE、IPCA、Cluster One、HC-PIN、CFinder等经典算法的对比实验表明,GAGC算法能够扩大图聚类算法的搜索空间,提高解的多样性,进而提高蛋白质复合物检测的性能。
关键蛋白质往往通过蛋白质复合物的形式在生物生命活动中扮演着重要作用,在蛋白质互作用(PPI,Protein-Protein Interaction)网络中关键蛋白质对应互作用网络中的重要节点,基于此,提出了一种融合蛋白质拓扑结构属性信息和蛋白质复合物信息的基于多属性决策的关键蛋白质识别算法CBT-Topsis(Topsis based method for Essential Protein Identification on Complex Biological and Topological properties)。该算法采用多属性决策方法TOPSIS将节点局部重要性(LN)、聚集系数(CC)、点介数(BC)和蛋白质复合物内度中心(IDC)进行融合,根据节点重要性对PPI网络中的蛋白质进行排序。在酿酒酵母蛋白质互作用网络中进行关键蛋白质识别的结果表明,CBTTOPSIS算法在F度量、准确率、特异性、敏感度等方面表现了良好的性能。
暂无评论