随着信息技术的发展,无纸化的业务流程在机构中越来越流行,但在办理跨机构业务时,信息常通过纸质表单或扫描文件的方式进行传递,再由机构工作人员手工录入到内部信息化系统。这种人工进行的录入工作费时费力,且录入效率低。随着文档录入需求的日益增长,文档自动化录入的研究愈为重要。业务流程中最常见的信息结构为表格,表格的自动化录入包含文本识别和表格结构识别两个步骤,后者表格结构识别的目标是识别表格的布局结构,得到表格中所有单元格的大小和位置,方便将文本填入对应的单元格。常用的表格结构识别方法根据表格文本的排布情况推测表格的行和列,与该方法不同,本文借助表格线的提取完成表格结构识别。先检测出表格图中的表格线,再将表格线搭建成表格便能得到所有单元格的信息。表格线的检测可以视为一个图像语义分割任务,分割出表格图片中表格线所在的区域,本文训练了一个全卷积网络,使其输出与原表格图像尺寸相同的分割图,分割图中标签为正的像素点表示表格线所在的区域,使用的全卷积网络为Unet,具有易收敛、特征融合丰富的优点。接着,用有向单连通链的方法从Unet输出的分割图中提取出明确的表格线,合并、平滑可能属于同一直线的线段,得到表格的所有横线和竖线,根据横线和竖线的位置信息构造横线矩阵和竖线矩阵即可得到所有单元格的信息。模型在ICDAR2013数据集上进行验证,并与目前最优的深度学习模型Deep De SRT进行对比,本文模型各项指标显著比Deep De SRT更优,准确率提升了30.8%,召回率提升了16.9%,验证了本文模型从任务定义到模型选择的优越性。考虑到表格文本的位置也包含了表格结构的信息,因此,在此基础上,模型添加了表格文本的位置信息,对表格结构做出进一步修正。首先检测表格线并搭建表格,得到初步表格结构,将文本块填入对应单元格,接着分析含多个文本块的单元格的布局,适当添加和删减表格线,更新表格线信息,循环以上过程,最终得到的表格线经过文本信息的修正。将改进后的模型在ICDAR2013数据集上验证,相比于原模型,准确率提升了1.1%,召回率提升了2.2%。
暂无评论