版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211031517.8
公 开 号:CN115410185A
代 理 人:刘秀珍
代理机构:北京世誉鑫诚专利代理有限公司
专利类型:发明专利
申 请 日:20221129
公 开 日:20220826
专利主分类号:G06V20/62
关 键 词:图像文字识别 原始数据文件 目标文本 纯文本 文本 多模态数据 方法识别 分析数据 关键信息 逻辑关联 逻辑关系 目标结果 目标信息 图片识别 文本序列 增强处理 状态识别 文本框 算法 匹配 筛选 图像
摘 要:本发明提供的一种多模态数据中特定人名及单位名属性的提取方法包括:获取原始数据文件;采用图像文字识别方法识别所述原始数据文件中的图像中的文本;将图像文字识别文本框转为文本序列,获得图片识别的纯文本结果;从所述纯文本结果中筛选目标信息的数据,获得目标文本;从所述目标文本中识别文本里的人名结果和单位名实体;对所述人名结果增强处理,获得增强人名结果;根据所述增强人名结果对人物单位进行匹配。通过分析数据内部关键信息间的逻辑关联,逐步把满足所有逻辑关系约束的目标结果状态识别出来,通过识别人物及单位的例子具体说明这一算法范式的操作细节。