光学字符识别(optical character recognition,OCR)技术在图书数字化、文献管理等诸多领域得到了广泛应用,而相比于已十分成熟的中文、英文印刷体识别系统,小文种(维吾尔文)印刷体识别还有研究空间和实际应用需求。针对传统识别方法特...
详细信息
光学字符识别(optical character recognition,OCR)技术在图书数字化、文献管理等诸多领域得到了广泛应用,而相比于已十分成熟的中文、英文印刷体识别系统,小文种(维吾尔文)印刷体识别还有研究空间和实际应用需求。针对传统识别方法特征表示不足等问题,结合日益兴起的深度学习技术,采用Python语言编程,选用经改进的卷积循环神经网络作为识别算法核心,并利用Django设计系统框架。实验表明,印刷体维文识别系统的精度达到95.7%,平均速度达到12.5 fps。该系统实现了端到端的维文整词识别。
低语(Whisper Speech)是指凑近别人耳朵小声说话,即私下里轻微的说话声。低语是一种常见的发音方式,由于发音方式比较特殊,其与正常语音在特征方面有较大差异。目前,区分低语和正常语音多数是借助于各类软件对某些声学特征进行直接观测,比如常见的频谱图等,而对于二者的分类模型研究较少,且没有一个公开的汉语低语语料库。为此,首先创建一个汉语低语语料库;其次,建立一种鲁棒的低语与正常语音的分类系统,提出一种基于卷积神经网络(CNN)的特征融合方法,该方法将光谱平坦度(Spectral Flatness)和语音均方根(Root Mean Square,RMS)相结合。实验结果表明,所提出的特征融合方法能够提高低语与正常语音分类系统的性能,与基线模型相比,准确率提高21.67%。
暂无评论