蛋白质是生命的重要组成部分,细胞生存所需的许多生物学功能都是通过蛋白质实现。在计算生物学中,一个有效的蛋白质表征方法对于生物学中各种任务至关重要,如预测蛋白质功能与结构。大多数现有的蛋白质表征方法通常在大量未标记的氨基酸序列上预训练蛋白质语言模型,然后在下游任务中使用一些标记数据对模型进行微调,例如Facebook的Fair团队提出的基于Transformer的超大规模预训练蛋白质语言模型ESM系列,为大规模蛋白质语言模型的研究提供了范式。然而,蛋白质不仅仅是线性的氨基酸序列,还是不同形式和分布的多模态数据,单一模态建模对于蛋白质表征有很大的局限性。尽管基于序列的方法很有效,并且在蛋白质相关任务上取得了不错的成绩,但是这些方法忽略了模态信息的完整性,会造成模型性能的下降。
鉴于上述问题,蛋白质的其他模态信息如结构、功能注释也渐渐被探索用于蛋白质表征学习。虽然多模态方法有助于提高蛋白质的表征能力,但仍然有不少挑战,如何融合多种蛋白质模态信息是一个难题。另外,针对蛋白质属性设计特定的预训练任务也是需要重点考虑的问题。
在这里,本文提出了一个整合了蛋白质序列、结构和功能注释的多模态蛋白质表征学习框架(a Multimodal fr Amework for incorporating protein Sequence,Structure and functional Annotation,MASSA),利用注意力机制对多模态信息进行融合。另外,为了充分提取高层次和细粒度的蛋白质功能域特征,本文使用Motif、Region、Domain三种功能域知识来指导预训练。本文使用基因本体(Gene Ontology,GO)作为蛋白质的功能注释信息,该多模态框架包括两个创新点:1)模型融合了蛋白质序列、结构和GO信息,利用注意力机制先融合序列和结构得到序列-结构嵌入,再与GO融合得到最终的蛋白质嵌入;2)用五个特定的任务对模型进行预训练,包括预测遮蔽的氨基酸、预测遮蔽的GO,以及Motif、Region、Domain的功能域识别。
通过预训练,本文的多模态蛋白质表征在各种蛋白质相关的下游基准任务上都达到了最好的性能水平或取得具有竞争力的结果,包括蛋白质特性预测、蛋白质与蛋白质相互作用、蛋白质与药物相互作用。此外,本文还通过消融实验探索了该多模态架构中各模块的有效性。
人工智能技术的快速发展和在云原生上部署应用高效等优点让越来越多的开发者和互联网企业将人工智能应用部署在Kubernetes集群上,但Kubernetes并不是主要针对深度学习而设计,对深度学习这个特定领域需要做定制优化。本文针对具有一定规模的Kubernetes集群上部署深度学习负载的场景,设计和实现了一系列优化方案,主要从深度学习所要求的数据处理、graphics processing unit (GPU)计算、分布式训练等几个方面进行优化,本文提出的优化方案覆盖了数据处理、计算等方面,这些技术极大简化人工智能负载在规模化云原生平台上的部署难度和提高运行效率,同时从实践上来看也验证了以上技术对人工智能应用有着显著的提升作用。
暂无评论