版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:苏州大学计算机科学与技术学院江苏苏州215006
出 版 物:《厦门大学学报(自然科学版)》 (Journal of Xiamen University:Natural Science)
年 卷 期:2022年第61卷第4期
页 面:682-688页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:传统的机器翻译模型均基于无噪声环境,即输入的数据是无错误的.但在实际同声传译中,语音识别不可避免会存在错误,这些错误在机器翻译过程中会直接影响其他内容的翻译.因此,统计分析语音识别错误的种类及产生的影响对提高机器翻译的鲁棒性具有指导意义.为了模拟真实语音识别错误,本文通过人工朗读NIST汉英实验测试集,并采用讯飞语音识别系统获取其语音识别结果进行统计分析,主要包括:1)语音识别错误的词性分析;2)语音识别错误的类型分析;3)语音识别错误对翻译性能的影响;4)语音识别错误对其他词翻译的影响.得出的主要结论为:名词和动词出现语音识别错误的次数较多,人名最易出现语音识别错误;同音异形字的语音识别错误出现次数最多;长度较小的句子在翻译时受到语音识别错误影响的程度更加明显;与语音识别错误词距离更近的词的翻译更易受到影响.