版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:厦门大学
学位级别:硕士
导师姓名:陈毅东
授予年度:2020年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:神经机器翻译 数据多样性 反向翻译 流畅度提升学习 进化算法
摘 要:近年来,遵循着编码器-解码器框架的神经机器翻译模型在多个语言对上都取得了振奋人心的成绩。尤其是引入注意力机制之后,神经机器翻译的性能得到了进一步的提升,已经全面超越了传统的统计机器翻译系统。尽管神经机器翻译在多方面有着不错的表现,但仍然面临着诸多挑战,尤其在数据领域。越来越庞大的模型对数据量和数据质量都提出了更高的要求,不过构造数以百万记的高质量平行语料往往要付出很高的代价。研究表明更多样化的数据对模型提升有所裨益,所以探讨如何提高现有数据的使用效率变得很有意义。反向翻译技术通过将目标端单语翻译成源端语言来扩充平行语料,一定程度上丰富了训练数据,但在解码时,神经机器翻译受限于贪心策略,预测译文往往较为单一,为此本文提出了两种方法来提升反向翻译译文的多样性。第一种方法的思路是在神经机器翻译训练过程中引入流畅度提升学习策略。流畅度提升的基础是语法改错,通常用于发现和纠正外语初学者的书面错误,而在本文的方法中流畅度提升学习的目标是发现反向翻译模型译文的错误并迭代地更正,从而生成更多多样化的样本,与此同时还能带来语料质量的提高。此方法优势在于不用修改翻译模型的结构,仅需要在训练流程上做出调整即可,因此该方法理论上是模型无关的,可以轻松的迁移到任何机器翻译框架中。第二种改进机器翻译多样性的思路是在反向翻译束搜索解码过程中引入进化算法的概念,通过预测序列之间的交叉变异产生更多候选样本,从而在采样时能有更多选择。进化算法的思想来自于自然界的进化变异,是维持生物多样性的自然法则。本文受此启发,从束搜索输出空间中选择优胜序列,然后模拟基因重组和突变产生更多候选序列,从而提升神经机器翻译解码的多样性。相比于传统反向翻译数据增强方式,在WMT18英-德新闻翻译任务中,本文的方法在BLEU值上的提升超过0.5个点。