版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:中央民族大学哲学与宗教学学院 中央民族大学国家安全研究院 中央民族大学信息工程学院 中央民族大学中国少数民族语言文学学院 国家语言资源监测与研究少数民族语言中心
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2025年
核心收录:
学科分类:060202[历史学-历史文献学(含∶敦煌学、古文字学)] 06[历史学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0602[历史学-中国史] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金项目(项目编号:22&ZD035)的研究成果之一
摘 要:[目的] 通过知识蒸馏将外部的来源于无监督数据的额外知识以训练数据的形式注入学生实体抽取模型,缓解古籍实体抽取任务有监督数据稀缺的问题。[方法] 使用大语言模型作为生成式知识教师模型,在无监督语料上进行知识蒸馏;基于《左传》和GuNer的有监督数据构造词典知识教师模型蒸馏词典知识,共同构建半监督古籍实体抽取数据集,并将古籍实体抽取任务转换为序列到序列任务,再微调mT5、UIE等预训练模型。[结果] 在《左传》和GuNer数据集上四类实体的F1指标分别达到了89.15%和95.47%,与使用古籍语料增量微调的基线模型SikuBERT和SikuRoBERTa相比,F1指标分别提升了8.15和9.27个百分点。[局限] 未加入实体额外信息;受限于大模型生成的数据质量。[结论] 该方法在低资源情境下,利用预训练大语言模型和词典资源的知识优势,将知识有效地蒸馏到学生模型,显著提升了古籍实体抽取的效果。