版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京农业大学信息管理学院江苏南京210095 南京农业大学人文与社会计算研究中心 南京大学信息管理学院江苏南京210023 南京理工大学经济管理学院
出 版 物:《图书馆杂志》 (Library Journal)
年 卷 期:2025年第44卷第4期
页 面:110-122页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 120502[管理学-情报学]
摘 要:学术论文的快速增长与学科领域的细分化程度提高对学术文献自动分类提出了更高的要求。为探究大语言模型在学术论文学科分类上的适用性,本文以人文社会科学领域论文为例,基于代表性传统机器学习模型与大语言模型Qwen-7B、Llama2-7B、Llama2-7B-hsse及GPT4开展学科分类实验,对比分析不同模型性能。在此基础上,探究大语言模型在不同规模精调数据上的分类表现。研究表明,基于领域大语言模型Llama2-7B-hsse构建的人文社科论文分类器以89.22%的整体分类F1值在21分类的对比实验中展现出明显优势,仅需五分之一的数据就能够达到与人文社科领域预训练模型SsciBERT相当的分类效果。基于大语言模型的领域增量训练与微调策略能够有效支持数据资源受限情景下的学术论文自动分类,同时为知识组织、学科交叉分析提供新思路。