得益于目前由于高分辨率的文字扫描系统以及先进的计算机技术,一些现有的光学字符识别(Optical Character Recognition,OCR)系统已经能够在大多数环境中帮助客户进行最基本的文字识别任务。但是对于用户来说,单纯的对表格中文字的识别...
详细信息
得益于目前由于高分辨率的文字扫描系统以及先进的计算机技术,一些现有的光学字符识别(Optical Character Recognition,OCR)系统已经能够在大多数环境中帮助客户进行最基本的文字识别任务。但是对于用户来说,单纯的对表格中文字的识别是不足的,通常表格的结构中也包含了关键内容,所以其中一个常见的实际应用场景便是对文档中存在的表格结构加以识别,从而提取出表格中的信息。目前的模型使用深度学习的方法在表格结构识别任务上取得了一定的进展,但是在真实世界的表格图片上仍然存在问题。首先,真实的图片中存在各种类型的空间畸变,在面对这些情况时,模型对于表格的一些假设不再成立,例如假设表格的格子是水平垂直的,因此面对几何形变,模型就会存在性能的下降。其次,在基于组合基本元素的模型中,模型大多数使用OCR工具获得的文本块或者是表格单元进行组合,这种组合方法将文本块看成了基本单位,但是这种基本单位粒度较粗,一个文本块中可能含有多个表格单元的内容。另外,在模型建模各个基本元素的关系时,存在对基本单元的相对位置建模不够充分的问题。针对第一个问题,本文提出了一种具有几何感知能力的表格结构识别网络,在使用骨干网络提取特征的基础上,借鉴关键点检测的思路对顶点和表格单元中心进行检测,在几何感知模块中,利用仿射变换建模几何畸变,使得模型得到几何感知的特征图,在此特征图上进行顶点到表格单元中心的配对回归,通过后处理还原表格的结构。针对后两个问题,本文提出了一种基于位置解耦Transformer的表格结构识别网络,首先通过OCR工具获得文本块与其对应的内容,然后使用Sentence Piece将文本块切分成更细粒度的文本段,将细粒度的文本段组合成表格结构。提出了内容与位置结解耦的Transformer网络,每个位置由内容向量和位置向量两个向量来表示,两种向量通过解耦的注意力机制交互。最后本文使用了有监督的对比学习损失对表征进行监督。本文提出的方法通过实验和对比证明了有效性和合理性。
暂无评论