目前,基于统计的双语词语对齐方法在机器翻译领域内占据着主导地位,出现了好多种不同类型的词语对齐方法,如基于对数线性模型,基于统计机器翻译模型,基于语言学的方法等。不同类型的方法在不同的应用领域表现出各自独具的特点,体现了良好的词语对齐性能。本文研究了ibm模型的实现原理和技术,并针对汉越两种语言的特点,研究了基于ibm模型实现汉-越词语对齐的方法,提出了一种能有效实现汉越双语句子词语对齐的方案:首先对汉越双语语料库中的双语语料进行句子的对齐、标准化、格式化等预处理工作,然后利用通过ibm模型获得的正反双向词语对齐的结果,结合词对齐优化算法,实现汉-越句子中词语的对齐结果。论文还通过一定规模的训练语料和测试语料对词语对齐结果做了实验验证,实验结果表明基于ibm模型能够得到比较高的词语对齐准确率。方法的研究和实验结果表明论文中提出的对齐方法可行,结果可信,达到了研究的预期目标。论文工作对后续汉-越双语的进一步研究提供了有力的技术支持。 本文采用ibm的统计词语对齐的研究方法的5个模型构建汉-越双语词语对齐的方案。通过双向训练ibm模型得出双向词语对齐结果,采用开源工具GIZA++[Och,2000;Och et al.,2003]进行汉-越双语词语对齐实验。
暂无评论