随着科研工作者人数的不断增加,科技论文的发表数量呈现快速增长的趋势。面对海量的科技论文,文献的归档、录入和分析工作变得越发繁重。当前,针对文献的分类模型主要关注论文的内容信息,而忽略了论文相关的关联信息。为此,本文提出一种融合内容信息与学术网络的论文表征模型PAITKG (paper analysis by incorporating text and knowledge graph),引入知识图谱嵌入技术对文献的多重关联信息进行表征,采用Adapter微调的SciBERT提取内容特征,并将二者融合。在训练过程中,本文改进了动态对抗损失函数来引导模型更好地关注错误结果,并将该方法在数字人文和多模态学习两个领域的文献数据集上进行实验。在科技文献的学科多标签分类任务上,PAITKG比Baselines有显著改善,很好地提高了分类精度。除此以外,通过上游任务的学习,PAITKG的表征获得了更广泛的应用,在没有任何额外训练的情况下,本文模型提取的特征向量能够较好地应用于主题聚类、学者推荐等分析任务。研究结果表明,PAITKG通过构建并表征论文的学术网络,有效融合了文献的关联信息,提高了对文献数据的理解能力,而且其学习到的表征具有优秀的泛化潜力,能够应用于各种文献分析工作。
暂无评论