当前的OCR (Optical Character Recognition,光学字符识别)技术虽然对中英文字符和数字符号都能获得较好的识别效果,但还无法准确识别科技文献中的数学表达式。因此,为实现数学表达式的再利用,数学表达式识别问题已经成为模式识别领域...
详细信息
当前的OCR (Optical Character Recognition,光学字符识别)技术虽然对中英文字符和数字符号都能获得较好的识别效果,但还无法准确识别科技文献中的数学表达式。因此,为实现数学表达式的再利用,数学表达式识别问题已经成为模式识别领域的一个研究热点。
数学表达式识别系统主要包括四个处理模块:文档中数学表达式的定位,数学表达式中字符与符号的切分与识别,数学表达式的结构分析和数学表达式的重构。结构分析作为数学表达式识别系统处理模块之一,其准确性直接影响公式重构的质量,是整个数学表达式识别系统的关键。本文针对这一关键环节展开研究,以基线分析方法为基础,给出结构分析后处理算法对结构分析结果进行检测和修正;并设计深度遍历数学表达式的基线分析方法,构建结构关系树。对不同类型印刷文档的对比实验表明,本文设计的深度遍历数学表达式基线法提高了系统的适应性和结构分析正确率。
OCR (Optical Character Recognition,光学字符识别)技术可以方便、快捷地将印刷文档转化为计算机中的电子文档,并且结合模式识别技术实现对电子文档中一些字符的识别。构建实现对二维数学表达式完全处理的数学表达式识别系统成为研究...
详细信息
OCR (Optical Character Recognition,光学字符识别)技术可以方便、快捷地将印刷文档转化为计算机中的电子文档,并且结合模式识别技术实现对电子文档中一些字符的识别。构建实现对二维数学表达式完全处理的数学表达式识别系统成为研究热点。
数学表达式识别系统按流程由数学表达式定位、数学表达式字符识别、数学表达式结构分析和数学表达式重构四个模块构成。数学表达式定位是数学表达式识别系统的基础环节,为系统后续步骤提供相关信息。本文针对中文文档的版式特点,研究孤立和内嵌数学表达式定位方法。孤立数学表达式采用行分类特征,通过模糊分类完成定位工作;内嵌数学表达式定位采用统计特征建立模糊分类,将字符分为不同字种,辅以字符识别的方法。实验结果表明,两类数学表达式定位方法均取得了较高的定位正确率和处理速度。
暂无评论