版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2001年第15卷第1期
页 面:13-18页
核心收录:
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
主 题:汉语自动分词 多步处理 消除伪岐义 句子全切金 部分确定性切分 数词串处理 重叠词处理
摘 要::汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达