版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:苏州大学计算机科学与技术学院江苏苏州215006 中国科学院计算技术研究所智能信息处理重点实验室北京100190 加州大学戴维斯分校计算机科学系加州95616
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2013年第27卷第6期
页 面:144-150页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:863重大项目课题(No.2011AA01A207) 国家自然科学基金资助项目(No.61003152 61272259)
摘 要:大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。