版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:西北民族大学中国民族语言文字信息技术教育部重点实验室甘肃兰州730030 西北民族大学数学与计算机科学学院甘肃兰州730030
出 版 物:《激光与光电子学进展》 (Laser & Optoelectronics Progress)
年 卷 期:2021年第58卷第2期
页 面:105-115页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61772430) 国家民委创新团队计划(〔2018〕98号) 甘肃省双一流学科建设项目(11080304) 甘肃省高等学校创新能力提升项目(2019B-024) 西北民族大学中央高校基本科研业务费项目(31920180050)
主 题:图像处理 藏文古籍文档图像 文本行切分 文字核心区域 扩展生长
摘 要:藏文古籍文档图像中相邻文本行之间通常存在黏连和重叠的情况,这使得文本行切分成为一项艰巨的任务。因此,提出了一种结合文字核心区域和扩展生长的藏文古籍文档图像的行切分方法。首先,根据二值藏文古籍文档图像中连通域的面积和真圆度去除非音节点,获得音节点图像。其次,通过水平投影音节点图像和垂直投影二值原图,得到文本行基线所处的范围和文本行数,生成文字核心区域;通过像素值的或运算将文字核心区域和二值原图结合,得到伪文本连通区域。最后,基于广度优先搜索算法将文字核心区域扩展为伪文本连通区域,获得伪文本行连通区域,通过去掉其中的非文字区域来获得伪文本行,利用有效的断裂笔画行归属方法获得最终的文本行。实验结果表明,所提方法取得了较好的文本行切分结果,有效解决了文本行之间的重叠、部分行黏连以及笔画断裂等藏文古籍文本行切分的问题。