版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202210949186.X
公 开 号:CN115309899B
发 明 人:李鹏霄 项菲 翟羽佳 王海洋 王红兵 时磊 侯炜 马宏远 王媛媛 艾政阳 闫玮佳
代 理 人:烟台上禾知识产权代理事务所(普通合伙)苏红红
代理机构:烟台上禾知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230516
公 开 日:20220809
专利主分类号:G06F16/35
关 键 词:词集合 匹配方式 特征向量 文本 词库 余弦相似度 模糊匹配 模式规则 模型计算 内容识别 匹配规则 文本集合 文本数据 词组 词识别 规则库 误识别 构建 词语 判定 存储 局限 灵活
摘 要:本发明公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。