中文分词(Chinese Word Segmentation)指的是将汉字序列按照一定的规则组合成词序列的过程,它是中文信息处理系统中的一个重要部分,是中文文献检索、搜索引擎、机器翻译(MT)、语音合成等信息系统中最基本的一步。中文分词的切分精度和...
详细信息
中文分词(Chinese Word Segmentation)指的是将汉字序列按照一定的规则组合成词序列的过程,它是中文信息处理系统中的一个重要部分,是中文文献检索、搜索引擎、机器翻译(MT)、语音合成等信息系统中最基本的一步。中文分词的切分精度和切分速度将直接对系统的后续过程产生影响,为了在保证中文分词切分速度的基础上,尽可能的提高中文分词的切分精度,以达到提高中文分词算法性能的目的,近年来研究和开发高性能的中文分词系统成为了热点。汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)是世界上领先的开源汉语词法分析器。本文通过研究开源版本的ICTCLAS汉语词法分析系统,结合现有的中文分词研究成果,在词典的构成、数词和时间词识别规则、机构名识别以及实现基于类的隐马尔可夫分词算法几方面提出改进思路。改进后的newICTCLAS分词系统采用双数组trie树结构的词典机制,完善人名、译名、地名以及数词匹配规则的同时,添加时间词识别和机构名未登录词的识别,并实现了基于类的隐马分词。实验结果表明改进后的newICTCLAS分词系统与开源版本的ICTCLAS系统相比在切分精度、切分速度、召回率和准确率上都有了不同程度的提高,证明了改进后系统的优越性。
暂无评论