版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310433149.8
公 开 号:CN116682131A
代 理 人:无锡市兴为专利代理事务所(特殊普通合伙)屠志力
代理机构:无锡市兴为专利代理事务所(特殊普通合伙)
专利类型:发明专利
申 请 日:20230901
公 开 日:20230421
专利主分类号:G06V30/412
关 键 词:输入文件 样本文件 数组 集合 比对结果 数据表格 重叠率 读取 灰度化处理 最大相似度 表格文件 文件比对 预先设置 相似度 返回 擦除 列数 判读 行数 申请 图片
摘 要:本发明提供一种基于OCR识别的文件比对方法,包括以下步骤:获取输入文件,所述输入文件为图片,包含有数据表格;对输入文件进行灰度化处理;读取多个预先设置的样本文件,所述样本文件为空白的表格文件;返回样本文件的集合数组;对输入文件进行OCR识别;并擦除识别得到数据表格中的数据,返回输入文件的集合数组;分别从从行的角度和列的角度,判读输入文件的集合数组与样本文件的集合数组的比对结果,包括行数差、行重叠数、行重叠率、列数差、列重叠数、列重叠率;根据上一步判断比对结果,得到输入文件与各样本文件的相似度,并获取最大相似度对应的样本文件。本申请能够自动按模板读取数据,提高效率。