随着信息时代的飞速发展,大量文字工作逐渐转移到计算机进行,使得电子文本的数量极速增长。互联网众多文本信息丰富了我们的生活,但是数据量的爆炸性增长也难免导致文本数据质量的大幅下降,使我们获取信息的效率大大地降低。传统人工校对的工作方式无法胜任如此大规模的数据,迫切需要计算机辅助的中文文本校对方法来帮助甚至替代人工校对。因此,在广泛地调研国内外关于文本校对的相关研究后,本文借助深度学习方法,从以下方面开展了工作:1.面向中文拼写错误校对问题,提出了一种融合汉字多特征嵌入的端到端中文拼写错误校对算法模型BFMBERT(Bi GRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型预测正确字符。BFMBERT在SIGHAN基准数据集上进行了评测,取得了82.2的F1值,性能显著优于其他基线模型。2.面向中文语法错误校对问题,提出了一种基于序列编辑的中文语法错误校对模型CGECSE(Chinese Grammatical Error Correction Based on Sequence Edits)。首先定义了多种字符级别的编辑标签,然后提出了一种能够显式地表示从错误句子到校对后句子编辑过程的序列转换方法。在经过基于Transformer的编码器后,CGECSE通过编辑标签预测层来预测句子中每个字符的编辑标签,通过错误概率预测层预测字符的错误概率,再通过编辑处理结合错误置信度过滤来校对句子的语法错误。该模型利用序列编辑来替代序列到序列(Sequence to Sequence,Seq2Seq)模型处理中文语法错误校对,不仅弥补了自回归模型推理速度慢的缺点,还提升了模型的可解释性。此外还提出了始端Dropout和多粒度的数据增强方法缓解中文语法错误校对数据规模小和模型过拟合的问题。经过实验证明,CGECSE的性能达到了目标,超过了NLPCC2018基准测试集上的其它模型。3.通过多端分离的开发方式设计并实现了中文文本校对系统。基于Flask开发中文文本校对服务API,通过Spring Boot开发中文文本校对系统的业务逻辑,再利用***框架开发前端界面,最后设计并实现了一个耦合度较低的中文文本校对系统,提供了在线校对和离线校对等功能,验证了所提出的中文拼写错误校对模型和中文语法错误校对模型的可用性。
暂无评论