对患有听力障碍的人群来说,手语是其日常生活工作中必不可少的沟通交流方式。传统手语识别模型包含手势图像预处理、手语手势区域检测、手语手势特征提取及手语识别等过程,其识别过程繁琐,算法复杂度高。因此,在有光照干扰的复杂背景中,传统手语识别模型的识别率较低,难以获得理想的识别效果。针对传统识别模型中存在的问题,本文从深度学习方法在目标检测领域中的应用方面入手,建立了一个基于改进YOLOv3(You Look Only Once v3)算法的手语手势识别模型。首先,本文选取数学中较为常见的十类基本手语手势:加、减、乘、除、直角、锐角、三角、倍、垂直、量角器,并在四种不同的背景下对此十种手语手势进行视频采集。其次,将采集的视频数据转换成对应的一帧一帧图像,并在前三种背景下选取每类手势图像3600张即一种背景下1200张图像数据,将其作为训练集。然后,在第四种背景下选取每类手势图像500张共5000张,将其作为测试集。最后,依据前期预实验中出现的问题并结合手语手势形状特点,对YOLOv3算法的检测尺度层进行了四次调整,其分别为:大尺度检测层调整为小尺度检测层、大尺度检测层调整为中尺度检测层、大和小尺度检测层调整为中尺度检测层、大和中尺度检测层调整为小尺度检测层,同时选取Selu函数作为改进模型的激活函数。针对改进后的识别模型,首先,应用自制手语训练集对其进行训练及测试,识别模型的平均识别准确率为99.73%。其次,使用公开Sebastien Marcel手势数据集对建立的手语识别模型进行训练及测试,平均识别准确率为94.58%。最后,通过对两次实验数据分析可知,相较于传统手语识别模型,本文采用的手语手势识别模型在识别率上有了很大的提升,其具有很好的研究应用价值。
暂无评论