神经网络机器翻译(neural machine translation,NMT)是一种新的基于编码-解码网络框架的机器翻译模型,其在各种翻译任务中都表现出了远远优于传统方法的性能。由于GPU内存和计算时间的限制,NMT只能维持一个包含最频繁词的相对有限的词表,词表外的未登录词(out of vocabulary,OOV)通常被表示为一个符号。其中源端句子中出现的会增加翻译的歧义性,同时NMT本身也无法处理翻译结果中的,只能借助一个额外的后处理方法。本课题针对OOV所带来的问题,把NMT的翻译过程分为“预处理”,“模型中”,“后处理”三个阶段,分别在这三个阶段对未登录词的处理方法进行了研究。首先在“后处理”阶段,本文针对现有的NMT中OOV后处理方法的缺点,提出了一种基于上下文的信息的NMT未登录词后处理方法。该方法首先为构造了多个未登录候选词,为每一个候选词提取了多个角度的上下文特征,之后通过一个pairwise的排序学习模型选择出最适合的OOV替换翻译结果中的。实验结果表明我们的方法可以显著地提高翻译结果中的OOV召回率。其次在“预处理”阶段,本文针对NMT中OOV产生的歧义问题,尝试使用相似词和聚类信息2种不同粒度的语义单元对OOV进行表示。我们在预处理阶段使用语义表示对NMT的训练和测试语料中的OOV进行替换,使用替换后的语料分别进行NMT的训练和测试,并在测试完成后恢复之前替换的翻译结果。实验结果表明使用词类预处理OOV可以明显地提升翻译质量。最后在“模型中”阶段,本文提出了一种OOV的层次聚类词向量的方法。我们使用聚类方法为OOV建立一个层次的语义表示,并把它嵌入到了NMT的模型中。这种层次的结构不仅可以在源端为OOV消除歧义,而且能为目标端的利用NMT中的上下文信息选择翻译词。同时我们引入的聚类向量还能缓解OOV的稀疏问题。实验结果表明模型在中-英翻译任务上比Baseline提升了1.43到2.06个BLEU值。
暂无评论