健康保险行业往往需要录入票据表格,出于自动化办公的需求,针对自然场景有线医疗票据表格识别展开了一系列研究,研究在深度学习下进行。基于深度学习的表格识别方案主要分为四类:基于目标检测的表格识别、基于语义分割的表格识别、基于序列的表格识别、基于图神经网络的表格识别。其中,对于有线表格识别问题,工业界常常采用基于目标检测或语义分割的方法,但是基于目标检测的方法难以解决弯曲幅度过大或密集表格中的折痕问题,基于语义分割的方法则难以解决遮挡、瑕疵等造成的断线问题。
本研究以语义分割为基础,提出了表结构识别单元格还原模型CRTable(Cell Map Restoration for Table Structure Recognition),受CenterNet目标检测模型以及许多其他关键点检测模型启发,提出了根据单元格中心点来修复语义分割断裂的单元格线的算法CellCP(Repair Cell based on Center Point),其核心研究工作如下:
(1)CenterNet通过中心点定位物体,本研究也通过中心点找到单元格,但本研究所提出的CellCP修复算法无需准确的中心点,甚至可以不止一个中心点,也并非基于一小块区域,而是直接对整个单元格计算基于距离的热力图,并根据阈值划分区域找到单元格中心点。在找到单元格之后通常的关键点检测方法会对其进行目标检测但本研究使用中心点做语义分割的修复。在CRTable模型的常规单元格分割图Cell Map外增加了一个Repair Map分支,该分支用来提取单元格中心点,然后使用提出的CellCP算法来修复因为图片质量问题导致的残缺单元格分割图,即是修复因为遮挡、磨损、弯曲等问题断开的单元格线。
(2)有线表最常使用的评价指标为Precision、Recall和F1 Score,在表结构识别中通常设置IOU值大于0.9为匹配,但该指标对于较小的单元格并不公平,往往微小的偏差就会得到较低的IOU值,故此对Precision、Recall和F1 Score评价指标做出了改进,设计了一套基于单元格大小的Offset Precision、Offset Recall、Offset F1 Score评价指标。
研究对比了几个经典的表结构识别方法,以及对比了最新的优秀表结构识别方法,在阿里达摩院提出的大型自然场景有线表格数据集WTW的测试集中,企业提供的实际数据集JLTable数据集中,以及表格识别论文最常使用的ICDAR 2013数据集的有线表格部分CRTable均取得了最佳结果。除表结构识别算法外,本研究还设计了一整套适配的表格识别系统方案,主要是完善的大图恰好分割为整数个448*448小图的边缘重叠方案,以及将线宽放大造成的离散单元格的合并方案和Word表格重建方案。
暂无评论