版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:山东农业工程学院基础课教学部济南250100 西北大学科学史高等研究院西安710127
出 版 物:《科技导报》 (Science & Technology Review)
年 卷 期:2024年第42卷第23期
页 面:135-144页
核心收录:
学科分类:0601[历史学-考古学] 060107[历史学-文化遗产与博物馆] 06[历史学] 060108[历史学-古代文字与铭刻] 060109[历史学-专门考古] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:陕西省重点研发计划科研项目(2019ZDLGY17-03) 西北大学研究生创新项目(CX2023045) 山东农业工程学院科研启动经费项目(2024GCCZR-17)
摘 要:里耶秦简的数量是之前出土秦简的10倍,填补了秦朝历史记载中的诸多空白。将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型序列标注的泛化能力;通过设置断句、分词一体化的对比实验,以选取性能更优的处理方案;同时设计了深度学习方法与预训练模型的对比试验。实验结果表明,CRF模型一体化的标注方案在各任务中的整体性能均有所提升,其中自动断句、分词的F1值分别达到75.79%与94.44%,且速度快用时少,更适用于里耶秦简。