咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度... 收藏

基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究

Research on Fine-Grained Entity Recognition of Ancient Book Based on Syntactic Features and Bert-BiLSTM-MHA-CRF

作     者:武帅 杨秀璋 何琳 公佐权 Wu Shuai;Yang Xiuzhang;He Lin;Gong Zuoquan

作者机构:南京农业大学信息管理学院南京210095 贵州大学贵州省大数据产业发展应用研究院贵阳550025 武汉大学国家网络安全学院武汉430072 贵州财经大学信息学院贵阳550025 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2024年第8卷第12期

页      面:136-148页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家社会科学基金重大项目(项目编号:22&ZD262) 贵州省科技计划项目(项目编号:黔科合基础1Y279)的研究成果之一 

主  题:预训练模型 古籍文本 命名实体识别 Bert-BiLSTM-MHA-CRF 句法特征 

摘      要:【目的】结合古籍文本复合句式结构特征,设计识别古籍文本中实体词精度较高的方法,推动数字人文研究的发展。【方法】以触发词和关系词作为识别实体词的关键特征词,设计句式特征模板;根据古籍文本特征,构建Bert-BiLSTM-MHA-CRF模型;融合句法特征和Bert-BiLSTM-MHA-CRF模型实现对古籍文本深层次、细粒度的命名实体识别。【结果】本文模型在传统样本标注的测试数据集上的F1值为0.88;在小样本标注的测试数据集上的F1值为0.83;在迁移学习的测试数据集上的F1值分别为0.79(《诗经》)、0.81(《吕氏春秋》)和0.85(《国语》)。【局限】在句法特征模板设计上,仅以单部古籍设计特征模板;在语义信息挖掘上,未考虑古籍文本字符的注音、部首等字结构特征。【结论】所提方法在小样本标注和迁移学习实验中,同样能精准地实现对古籍文本的命名实体识别,为“数字人文研究任务提供较高质量语料数据。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分