咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于分类的平行语料选择方法 收藏

一种基于分类的平行语料选择方法

Selection of Parallel Corpus Based on Classification

作     者:王星 涂兆鹏 谢军 吕雅娟 姚建民 WANG Xing;TU Zhaopeng;XIE Jun;LV Yajuan;YAO Jianmin

作者机构:苏州大学计算机科学与技术学院江苏苏州215006 中国科学院计算技术研究所智能信息处理重点实验室北京100190 加州大学戴维斯分校计算机科学系加州95616 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2013年第27卷第6期

页      面:144-150页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:863重大项目课题(No.2011AA01A207) 国家自然科学基金资助项目(No.61003152 61272259) 

主  题:统计机器翻译 平行语料选择 

摘      要:大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分