咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于双通道特征融合网络的语音情感识别 收藏

基于双通道特征融合网络的语音情感识别

Speech emotion recognition based on dual channel feature fusion network

作     者:周晓彦 王丽丽 邵勇斌 鞠醒 ZHOU Xiaoyan;WANG Lili;SHAO Yongbin;JU Xing

作者机构:南京信息工程大学电子与信息工程学院江苏南京210044 

出 版 物:《声学技术》 (Technical Acoustics)

年 卷 期:2024年第43卷第6期

页      面:854-861页

学科分类:0711[理学-系统科学] 07[理学] 

主  题:语音情感识别 卷积神经网络 视觉transformer 特征融合 

摘      要:针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分