手写数学公式识别是将人类手写的数学公式转换成计算机能够理解和编辑的格式,在纸质文档电子化、内容识别与检索等领域都有着广泛应用。随着社会信息化智能化的深入推进,面向智能教育的手写数学公式识别算法日益成为研究的热点之一。手写数学公式识别有离线识别和在线识别模式。离线手写数学公式识别首先通过扫描得到包含公式的图像,再对公式图像进行识别。手写数学公式具有复杂的空间结构,符号之间具有语义依赖。手写数学公式识别不仅要检测和识别出公式中的每一个符号,同时还要解析不同符号间的结构关系。因此,高精度手写数学公式识别具有很大的挑战性。本文针对手写数学公式的结构化特征及语义依赖关系进行了深入的研究,在此基础上提出了一种基于结构特征的手写数学公式识别算法并进行了改进。首先利用深度学习网络检测定位数学公式中的符号,其次采用图神经网络来构建符号之间的关系,最后采用基于Transformer的解码器实现公式识别。本文的主要工作如下:1.定位公式中的符号位置。为了构建公式符号间的关系,首先需要精确定位符号的位置。本文通过对比实验研究了不同检测网络的符号检测性能,选取了综合性能较好的网络作为本文算法的符号检测模块。2.提出了一种基于图网络的手写数学公式识别算法。本文将公式视为一个具有二维空间布局的图结构,将公式中每个符号抽象为图的节点,符号间的关系抽象为图的边。基于符号的位置信息,根据LOS(Line-of-Sight)规则构建出公式的图结构表示。为了充分利用公式的结构信息,本文提出了基于节点-边注意力的图推理网络来学习和更新公式的二维结构信息,通过节点和边进行分类的方法实现手写数学公式的识别。3.提出了一种基于图网络和Transformer的改进的手写数学公式识别算法。手写数学公式本质上是一种语言文本,具有明显的上下文语义信息,因此需要融合公式的结构信息和语义信息才能更好地提升模型性能。为此,本文设计了基于Transformer的解码器,对图网络编码后的特征进行解码,学习符号间的语义信息,从而生成识别结果。此外,为了充分利用公式的前后向的语义信息,采用了双向语义建模,进一步提升了算法性能。本文算法在公开数据集CROHME 2014/2016/2019以及Off Ra SHME上分别取得了53.45%、55.27%、54.13%和66.75%的识别率,验证了本文算法的有效性。
暂无评论