版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:华北理工大学人工智能学院河北唐山063210 华北理工大学河北省工业智能感知重点实验室河北唐山063210 北京科技大学计算机与通信学院北京100083 北京科技大学材料领域知识工程北京市重点实验室北京100083
出 版 物:《吉林大学学报(工学版)》 (Journal of Jilin University:Engineering and Technology Edition)
年 卷 期:2023年第53卷第12期
页 面:3529-3535页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:中央高校基本科研业务费项目(FRF-DF-20-04) 河北省三三三人才项目(A201803083)
主 题:自然语言处理 特征稀疏特性 短文本命名 短文本实体快速识别 文本预处理 特性权重
摘 要:首先,通过过滤标点符号选择适当的特征,并构建向量,分割两个及两个以上词语组成特定语义,标注词性,找出相对词类。其次,利用潜在狄利克雷分配(LDA)模型令话题与文档间存在相关性,明确文档主题,降低数据特征稀疏特性。再次,本文双向长短期记忆网络条件随机场(BR-BiLSTM-CRF)模型通过双向LSTM模型检测文本命名实体的边界,与链式条件随机场层的输出实体类型相结合,增加了词汇和词类的特征,实现对文本整体序列实体边缘的检测。最后,采用交叉熵和梯度下降修正网络参数,直至误差不超过指定数值,实现文本命名实体的识别。实验结果表明:本文方法识别速度快、精度高、整体性能强;该方法能够更好地通过计算机识别语言明确文本词性,提高命名实体识别的准确性和效率。