从提高满足少数民族普通话高自然度语音合成与高精度语音识别的实际应用需求出发,首次从实验语音学的角度对初级、中级和高级阶段的50名维吾尔族汉语学习者与10名母语为汉语普通话的说话人声调的一阶差分与时长以及相似度进行对比,并对其声调的一阶差分模式、声调时长等韵律参数进行了实验分析,得出维吾尔族学生对汉语声调的偏误情况以及与中国少数民族汉语水平等级考试(Master of Human Kinetics, MHK)成绩的关系。通过实验结果可以发现,三组维吾尔族人学习普通话的声调都有困难。两种语言的音系,语调和重音等特性影响了第二语言中的声调特性。归纳了维吾尔族学习者声调的基本声学特征,总结出了一些重要的规则和结论;为解决给汉语语音处理带来的困难,尤其是少数民族汉语的语音合成和语音识别方面的声调问题,提供了重要的参考依据。
命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,...
详细信息
命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场(Conditional random field,CRF)中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能.同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率.实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.
暂无评论