贝叶经是傣族文化的集大成者,但其濒临消亡的现状令人担忧,保护贝叶经迫在眉睫。在信息化时代,采用数字化技术对其进行存储,能为贝叶经的存储及研究学习提供极大便利,但采用人工录入的方式必然是枯燥而且低效的。随着人工智能技术的崛起,人们更希望这些枯燥费时的工作可以由“不知疲倦”的计算机来完成。光学字符识别(Opti cal Character Recognition,OCR)技术可以很好的完成这项工作,在OCR系统中,图像预处理技术和字符分割技术扮演着非常重要的角色,它们的效果是后续工作的基础。本文以贝叶经图像为研究对象,对其预处理及分割算法进行了深入的研究,并给出了现阶段的实验结果和结论,为贝叶经字符识别工作的开展奠定了基础。贝叶经普遍存在遭遇摩擦、虫蛀和风化的痕迹,且其中的纹理裂缝、字符笔画与贝叶经书背景颜色十分接近。针对这一现状,本文在已有技术的基础上提出了改进的贝叶经图像分割技术,其主要包括贝叶经图像预处理、贝叶经图像行分割和贝叶经图像字符分割三个部分。(1)贝叶经图像预处理是一切工作的起始,主要包括贝叶经图像去噪、贝叶经图像二值化处理和贝叶经图像倾斜矫正三个内容,其中贝叶经图像二值化处理是讨论的重点。针对贝叶经图像的特点,本文提出了基于连通域算法和字符笔画边界图的二值化算法,实验结果证明,本文提出的算法可以取得不错的二值化效果。(2)通常地,图像分割是OCR系统的瓶颈,而行分割是字符分割的基础。贝叶经图像行与行之间存在大量笔画交错的情形,这加剧了贝叶经行分割的难度。一种基于Viterbi算法和路径筛选算法的贝叶经图像行分割算法被用来解决贝叶经行分割问题,并达到了 92.84%的正确率。(3)以行分割结果为基础,本文提出了自已的贝叶经图像字符分割算法,算法主要基于Viterbi算法和凹点检测算法,两种算法分别用于分割非粘连字符和粘连字符。首先采用Viterbi算法定位得到所有候选的分割路径,然后,根据特定的路径筛选规则筛选的到了最优分割路径,最后采用基于模板的凹点检测算法来分割粘连字符。整个字符分割算法得到了预想的效果,但分割结果中依然存在许多错分的现象,后续工作还须在这方面花时间进行研究。本文为贝叶经字符识别的研究打下了基础。其实作者在本文基础上已经对贝叶经字符识别算法进行了初步地研究,但由于实验结果还不够理想,具体的字符识别算法将不在本文中进行重点讨论。
暂无评论