版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202111070443.4
公 开 号:CN113886522B
发 明 人:胡岩峰 胡政 潘宇顺 陈诗旭 乔雪 宋路杰 丁士伟 吕东帅
代 理 人:南京理工大学专利中心封睿
代理机构:南京理工大学专利中心
专利类型:发明专利
申 请 日:20221202
公 开 日:20210913
专利主分类号:G06F16/33
关 键 词:首字符 编码器输出向量 路径扩展 实体表示 线性映射 编码器 映射 向量 预测 标签 编码器编码 模糊性问题 解码 实体识别 文本序列 字符索引 非连续 准确率 拼接 索引 输出
摘 要:本发明提出了一种基于路径扩展的非连续实体识别方法,对文本序列使用Transformer‑1编码器编码;将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;针对预测的每个实体首字符,将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接,使用Transformer‑2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;解码获得的实体表示路径,得到识别出的实体。本发明避免了解码模糊性问题,提高了识别的准确率。