本发明涉及基于文本结构的数据自动提取处理方法、装置及系统,属于电数字数据处理技术领域,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及目标识别字符集基础上自动提取数据字段值,加入了特定结构化识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了Web of Science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了精准的论文数据库以便后续分析与管理。
暂无评论