版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:太原师范学院计算机科学与技术学院山西晋中030619
出 版 物:《软件导刊》 (Software Guide)
年 卷 期:2025年第24卷第4期
页 面:42-47页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山西省基础研究计划(自由探索)项目(20210302123334)
主 题:科技文献分类 小样本学习 原型网络 BERT模型 不平衡数据
摘 要:由于学科的不断细化和学科间发展速度的不均衡,个别学科可用于分类训练的数据极少,为科技文献分类工作带来了一定困难。为此,针对科技文献长尾问题严重且传统文本分类方法已经无法取得更好分类效果的问题,提出一种基于BERT-Prototypical模型的小样本科技文献分类方法。该模型以迁移学习中的原型网络为基础,首先借助BERT预训练模型深入挖掘科技文献文本间的关系以获得更好的特征表示;然后将编码后的文本特征输入到原型网络中,通过优化原型网络的编码方式和参数设置提高科技文献分类效果。实验结果表明,在5-way 20-shot任务中,BERT-Prototypical模型的分类准确率达到95.6%;在样本有限的5-way 5-shot任务中,BERT-Prototypical模型的分类准确率可达78.4%,相较对照模型的分类效果有所提升。