版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:新疆大学信息科学与工程学院乌鲁木齐830046 新疆多语种信息技术重点实验室乌鲁木齐830046
出 版 物:《现代计算机》 (Modern Computer)
年 卷 期:2019年第25卷第14期
页 面:3-7页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(No.61662077、No.61262060)
主 题:命名实体识别 双向长短时记忆循环神经网络(BiLSTM) 语言技术平台(LTP) CoreNLP
摘 要:为了比较客观了解现有主要中文命名实体识别系统与开源系统的性能,基于字的双向长短时记忆循环神经网络(BiLSTM)接入条件随机场(CRF)的系统,利用微软亚洲研究院的MSRA数据集实现中文命名实体识别模型,然后使用MSRA测试数据对自建模型、哈工大的语言技术平台(LTP)和斯坦福大学CoreNLP自然语言处理工具进行对比测试与分析。实验表明:BiLSTM对地名实体的识别效果最佳,与地名和人名相比机构名识别效果与开源工具保持同等水平。实验在语料规模以及实验设计方面有提升空间。后续将实验模型作为重点,将特定领域实体与序列标注问题相结合进行开展研究。