版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:武夷学院数学与计算机学院武夷山354300 南通大学信息科学技术学院南通226019 苏州大学计算机科学与技术学院苏州215006 认知计算与智能信息处理福建省高校重点实验室武夷山354300
出 版 物:《计算机系统应用》 (Computer Systems & Applications)
年 卷 期:2019年第28卷第11期
页 面:238-244页
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61672369) 中央引导地方科技发展专项(2018L3013) 福建省自然科学基金面上项目(2015J01669,2017J01651) 福建省教育厅中青年教师项目(JA15522)
摘 要:各种文档中经常包含有各种特殊作用的横线、手划线等,当这些文档通过扫描等数字化方式存入计算机并需要进一步识别处理成文字编码时,这些线条却成为OCR的干扰因素,降低了文档内容的识别率.为此,本文提出一种新的文档干扰线去除算法,先将文档图像二值化,二值化过程考虑了不均匀光照带来的影响;然后将前景细化为单像素,减少线条粗细造成的影响;接着通过一种改进的贪婪算法计算横、竖两个方向线段的权重,判断权重较高的线段为干扰线;最后通过与干扰线距离的大小判断图像中每个前景像素的归属,从而获得一个完整的文档恢复图.仿真实验表明,本文提出的算法能够有效去除干扰线,特别在干扰线与文字粘连的情况下,去除干扰线的同时较少地影响文档图像的质量,且具有较高的计算速度和较好的去除效果,为图像进一步OCR识别提供了良好的基础.