版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202210592403.4
公 开 号:CN114927177A
代 理 人:舒良
代理机构:杭州天正专利事务所有限公司
专利类型:发明专利
申 请 日:20220819
公 开 日:20220527
专利主分类号:G16H10/00
关 键 词:实体识别 字音 文本序列 汉字 文本预处理 解码 领域知识 网络提取 序列标签 序列特征 医疗领域 融合 中文 医疗 字典 标签 文本 捕捉 融入 学习
摘 要:一种融合中文医疗领域特征的医疗实体识别方法,基于特定领域知识识别药品说明书中的实体,所述方法包括步骤:S1:收集中文药品说明书并进行文本预处理;S2:利用图卷积网络提取文本序列词级别的特征,其中节点的特征考虑了字音、字形以及字典的特征;S3:提取文本序列字级别的特征,并融合词级别的特征;S4:采用双向LSTM学习文本的序列特征,经过解码层得到汉字的序列标签,将标签进行组合,完成实体识别的任务。本发明充分全面地捕捉到汉字字音字形的特征,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。