版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:重庆师范大学数学科学学院重庆401331 英特尔边缘智能联合研究院南京211135 重庆大学数学与统计学院重庆401331
出 版 物:《重庆师范大学学报(自然科学版)》 (Journal of Chongqing Normal University:Natural Science)
年 卷 期:2024年第41卷第2期
页 面:137-144页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081203[工学-计算机应用技术] 08[工学] 070105[理学-运筹学与控制论] 0835[工学-软件工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:表格信息抽取 单元格结构信息 表格识别算法 单元格区域识别
摘 要:现有的端到端方法和基于预训练模型的方法在训练过程中未有效利用表格单元格的结构信息,从而影响了表格文本在模型中的向量表示和最终的语义信息抽取精确率;因此提出了进一步利用单元格结构信息来改进光学字符识别效果的端到端方法和增加单元格序列预测任务的预训练方法。实验结果显示改进后的2种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。改进后的方法加强了单元格结构信息在表格中的重要性,提高了表格语义信息抽取的精确率。