本论文探讨跨领域机器翻译的问题,统计式翻译近年来已逐渐成为机器翻译的主流,然而以一般领域(general domain)统计式翻译模型翻译特殊领域(domain-specific)语句会遇到许多问题,例如歧异性、排序错误以及未知词问题(out of vocabula...
详细信息
本论文探讨跨领域机器翻译的问题,统计式翻译近年来已逐渐成为机器翻译的主流,然而以一般领域(general domain)统计式翻译模型翻译特殊领域(domain-specific)语句会遇到许多问题,例如歧异性、排序错误以及未知词问题(out of vocabulary)。由於特殊领域双语语料库并不一定存在,在先前的实验中,我们加入双语字典及规则式翻译来辅助统计式翻译,并取得了不错的效果。在此论文中,我们更进一步使用领域相关单语语料库来改进统计式翻译模型。我们使用多种方法利用单语语料库,包括从译後编辑(post-editing)取得新翻译规则(pattern)、以非监督及半监督式学习训练出领域相关统计式翻译模型,并探讨不同模型组合对翻译效果的影响。实验显示从译後编辑取出的规则确实能提升翻译品质;从单语语料库作非监督及半监督式学习训练出的模型也皆有显着进步;以译後编辑搭配半监督式学所得到的模型则有最佳效果。
暂无评论