版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:梧州学院大数据与软件工程学院广西梧州543002 梧州学院广西机器视觉与智能控制重点实验室广西梧州543002 梧州学院广西高校图像处理与智能信息系统重点实验室广西梧州543002
出 版 物:《梧州学院学报》 (Journal of Wuzhou University)
年 卷 期:2022年第32卷第3期
页 面:10-17页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:梧州学院教育教学改革工程项目(Wyjg2019A094)
主 题:命名实体识别 条件随机场 BERT模型 ALBERT模型 准确率
摘 要:HMM、CRF等机器学习算法在中文实体抽取任务上存在大量依靠特征提取及准确率低的缺陷,而基于BiLSTM-CRF、BERT等深度神经网络算法在中文实体识别准确率高,但BiLSTM模型依赖大规模标注数据,BERT存在参数量大、效率低等问题。该研究提出了基于ALBERT-Attention-CRF模型进行中文实体抽取的方法。首先将glove、Word2vec等静态词向量替换为ALBERT预训练模型字向量,可有效解决分词错误、数据稀疏、OOV、过拟合以及一词多义等问题;然后采用ALBERT作为编码层并对其输出利用Attention机制捕获上下文语义特征;最后结合CRF作为解码层输出实体正确标签,摒弃主流BiLSTM-CRF模型,最终在《人民日报》数据的测试集上取得了理想的效果。试验结果表明,该方法有助于提升通用中文实体识别的准确率和效率,其有效性也得到了较好的验证。