咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于CRF模型的《里耶秦简》自动断句与分词研究 收藏

基于CRF模型的《里耶秦简》自动断句与分词研究

Automatic sentence segmentation and word segmentation for Liye Qin Bamboo manuscripts based on CRF model

作     者:冯慧敏 郭帅帅 刘铭 FENG Huimin;GUO Shuaishuai;LIU Ming

作者机构:山东农业工程学院基础课教学部济南250100 西北大学科学史高等研究院西安710127 

出 版 物:《科技导报》 (Science & Technology Review)

年 卷 期:2024年第42卷第23期

页      面:135-144页

核心收录:

学科分类:0601[历史学-考古学] 060107[历史学-文化遗产与博物馆] 06[历史学] 060108[历史学-古代文字与铭刻] 060109[历史学-专门考古] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:陕西省重点研发计划科研项目(2019ZDLGY17-03) 西北大学研究生创新项目(CX2023045) 山东农业工程学院科研启动经费项目(2024GCCZR-17) 

主  题:CRF模型 里耶秦简 自动断句 自动分词 

摘      要:里耶秦简的数量是之前出土秦简的10倍,填补了秦朝历史记载中的诸多空白。将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型序列标注的泛化能力;通过设置断句、分词一体化的对比实验,以选取性能更优的处理方案;同时设计了深度学习方法与预训练模型的对比试验。实验结果表明,CRF模型一体化的标注方案在各任务中的整体性能均有所提升,其中自动断句、分词的F1值分别达到75.79%与94.44%,且速度快用时少,更适用于里耶秦简。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分