版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310022712.2
公 开 号:CN116127975A
代 理 人:谢金文
代理机构:深圳知帮办专利代理有限公司
专利类型:发明专利
申 请 日:20230516
公 开 日:20230108
专利主分类号:G06F40/295
关 键 词:命名实体 文本 偏置 语言模型 编码器 建模 语言模型训练 错误问题 识别性能 文本抽取 并行 抽取
摘 要:本发明公开了一种基于关键词增强的语言模型建模方法,该方法包括建模,在语言模型建模时,设置一偏置编码器,所述偏置编码器位于语言模型的编码器的并行区;同时,定义偏置文本,通过偏置文本对稀有词和命名实体文本进行抽取;所述偏置文本包含有稀有词及命名实体;在训练时,会先将训练集中每句话中包含的稀有词和命名实体文本抽取出来,并在语言模型训练的每一批次中加入相对应的每句话所包含的命名实体。本发明在没有利用额外文本的基础上能够更加关注到稀有词和命名实体的,同时又不会损失在普通文本上的识别性能,能够避免对于稀有词的识别错误问题。