OCR (Optical Character Recognition,光学字符识别)技术可以方便、快捷地将印刷文档转化为计算机中的电子文档,并且结合模式识别技术实现对电子文档中一些字符的识别。构建实现对二维数学表达式完全处理的数学表达式识别系统成为研究...
详细信息
OCR (Optical Character Recognition,光学字符识别)技术可以方便、快捷地将印刷文档转化为计算机中的电子文档,并且结合模式识别技术实现对电子文档中一些字符的识别。构建实现对二维数学表达式完全处理的数学表达式识别系统成为研究热点。
数学表达式识别系统按流程由数学表达式定位、数学表达式字符识别、数学表达式结构分析和数学表达式重构四个模块构成。数学表达式定位是数学表达式识别系统的基础环节,为系统后续步骤提供相关信息。本文针对中文文档的版式特点,研究孤立和内嵌数学表达式定位方法。孤立数学表达式采用行分类特征,通过模糊分类完成定位工作;内嵌数学表达式定位采用统计特征建立模糊分类,将字符分为不同字种,辅以字符识别的方法。实验结果表明,两类数学表达式定位方法均取得了较高的定位正确率和处理速度。
暂无评论