图池化作为图神经网络中重要的组件,在获取图的多粒度信息的过程中扮演了重要角色。而当前的图池化操作均以平等地位看待数据点,普遍未考虑利用邻域内数据之间的偏序关系,从而造成图结构信息破坏。针对此问题,本文提出一种基于偏序关系的多视图多粒度图表示学习框架(multi-view and multi-granularity graph representation learning based on partial order relationships,MVMGr-PO),它通过从节点特征视图、图结构视图以及全局视图对节点进行综合评分,进而基于节点之间的偏序关系进行下采样操作。相比于其他图表示学习方法,MVMGr-PO可以有效地提取多粒度图结构信息,从而可以更全面地表征图的内在结构和属性。此外,MVMGr-PO可以集成多种图神经网络架构,包括GCN(graph convolutional network)、GAT(graph attention network)以及GraphSAGE(graph sample and aggregate)等。通过在6个数据集上进行实验评估,与现有基线模型相比,MVMGr-PO在分类准确率上有明显提升。
抗菌肽(antimicrobial peptides,AMPs)广泛存在于生命体中,是一种具有广谱抗菌活性、免疫调节功能的小分子多肽。抗菌肽不易产生耐药性,适用范围广,具有极大的临床价值,是传统抗生素的有力竞争者。识别抗菌肽是抗菌肽研究领域中的重要研究方向,湿实验法在进行大规模抗菌肽识别时存在成本高、效率低、周期长等难点,计算机辅助识别法是抗菌肽识别手段的重要补充,如何提升准确率是其中的关键问题。蛋白质序列可以被近似地看作是由氨基酸组成的语言,运用自然语言处理(natural language processing,NLP)技术可能提取到丰富的特征。本文将自然语言处理领域中的预训练模型BERT和微调结构Text-CNN结合,对蛋白质语言进行建模,提供了开源可用的抗菌肽识别工具,并与已发表的5种抗菌肽识别工具进行了比较。结果表明,优化“预训练-微调”策略带来了准确率、敏感度、特异性和马修相关系数的整体提升,为进一步研究抗菌肽识别算法提供了新思路。
暂无评论