伴随着互联网时代的飞速发展,互联网数据急速增长,但信息质量却在不断下降,文字误用成了亟待解决的难题。传统人工校正的方法耗时长且效率低,难以解决庞大的数据需求问题。因此,中文文本自动校对技术的研究具有深刻的实际意义。本文对中文文本的错误来源和错误类型进行了分析,将中文文本的错误类型划分为“非词错误”和“真词错误”,然后针对不同类型的错误采用不同的校对算法。中文文本自动校对任务通常分为查错和纠错两个环节,本文针对这两个方面做了以下研究:1.在查错阶段,对于“非词错误”,本文利用基于规则和词典的方法进行检测。通过对句子进行分词处理,对分词结果进行查字典分析,对于连续的散串和字典中并不存在的词则认为是错误字词。对于“真词错误”,利用n-gram语言模型进行相邻词组间的接续分析,若两个词组间的概率值小于阈值则认为该词存在错误。2.在纠错阶段,本文分析了n-gram语言模型和长短时记忆网络(Long Short Term Memory networks,LSTM)语言模型各自的特点,提出了一种基于Tri-gram和LSTM语言模型的联合校对算法。先利用Tri-gram语言模型对句子进行打分,如果句子的分值差异过小,则用LSTM语言模型进行第二次打分进一步排歧,最后比较所有候选句的得分并将得分排名第一的候选句作为纠错建议输出,从而达到提高纠错正确率的效果。***语言模型虽然能够更好地把握字词间的长距离信息,但模型的计算速度较慢,为提高LSTM模型的纠错效率,本文提出了一种基于前缀树合并的优化方案。通过对大量的纠错候选句进行分析后发现,同一个句子的各个纠错候选句之间存在高度的相似性,可以将各个候选句相似的部分合并形成前缀树,然后使用多线程流水线的方法对各个句子的概率得分进行并行计算。通过使用上述优化方案,能够在联合校对算法的基础上进一步提高LSTM语言模型的纠错效率。最后,本文对上述校对方法在测试集上进行测试,实验结果表明,本文提出的优化方案能够使纠错性能和纠错速率在原基础上得到较大提升。
暂无评论