版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:新疆大学信息科学与工程学院新疆乌鲁木齐830046 新疆大学新疆多语种信息技术实验室新疆乌鲁木齐830046
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2018年第32卷第11期
页 面:16-26,33页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家973计划(2014CB340506) 国家自然科学基金(61462083 61262060 61662077 61331011) 新疆多语种信息技术实验室开放课题(2016D03023)
主 题:维吾尔文命名实体识别 条件随机场 半监督学习
摘 要:目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。