一种文本中特定内容识别存储方法及系统-内蒙古大学图书馆

文献详情 >一种文本中特定内容识别存储方法及系统收藏

一种文本中特定内容识别存储方法及系统

专利申请号：CN202210949186.X

公开号：CN115309899B

发明人：李鹏霄项菲翟羽佳王海洋王红兵时磊侯炜马宏远王媛媛艾政阳闫玮佳

代理人：烟台上禾知识产权代理事务所(普通合伙)苏红红

代理机构：烟台上禾知识产权代理事务所(普通合伙)

专利类型：发明专利

申请日：20230516

公开日：20220809

专利主分类号：G06F16/35

关键词：词集合匹配方式特征向量文本词库余弦相似度模糊匹配模式规则模型计算内容识别匹配规则文本集合文本数据词组词识别规则库误识别构建词语判定存储局限灵活

摘要：本发明公开了一种文本中特定内容识别存储方法及系统，属于文特定词识别的技术领域，其方法包括生成特定词库和规则库；获取待识别的文本集合；提取当前特定文本数据集中的新特定词，得到新特定词集合；将需要训练的词组输入BERT模型；从特定文本中获取疑似新特定词集合，利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式，匹配方式不够灵活，结果不够全面，难以及时识别海量新出现的特定词及其变体词，且由于文本中涉及大量错综复杂的词语，容易造成特定词的模糊匹配，导致误识别的问题。

本地馆藏 | 借阅须知 | 我要预约

已订购，未入库

sda

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

一种文本中特定内容识别存储方法及系统

读者评论与其他读者分享你的观点

请选择收藏分类：

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

一种文本中特定内容识别存储方法及系统

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：