版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211484163.2
公 开 号:CN116070589A
发 明 人:邓建新 刘港 吴秀松 梁嘉威 唐伟博 贺德强 戴博林 农张华 黎业富
代 理 人:吴世贵
代理机构:南宁智卓专利代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230505
公 开 日:20221124
专利主分类号:G06F40/12
关 键 词:表格框线 期刊 表格区域 表格数据结构 表格数据 构建 框线 清洗 关键字计算 右下角坐标 左上角坐标 表格设计 高效提取 逻辑关系 全自动化 输出表格 信息提取 中英文 筛选 保证
摘 要:本发明提供一种基于关键字与框线特征的期刊文献表格高效提取方法,属于PDF文件信息提取领域,方法包括根据期刊表格框线与字符特点构建表格数据结构,表格数据结构由关键字与表格框线两部分组成,分别构建关键字清洗规则与表格框线清洗规则,利用关键字计算期刊表格区域的左上角坐标,利用表格框线计算期刊表格区域的右下角坐标,精确定位表格区域,最后输出表格数据。该方法特别针对期刊文献中的少框线表格设计,完全适用于中英文文献,可实现表格数据提取的全自动化,保证表格数据逻辑关系的准确性。通过新增关键字进一步实现相关领域表格的筛选,具有广泛的适用性。