目的基于卷积神经网络的单阶段目标检测网络具有高实时性与高检测精度,但其通常存在两个问题:1)模型中存在大量冗余的卷积计算;2)多尺度特征融合结构导致额外的计算开销。这导致单阶段检测器需要大量的计算资源,难以在计算资源不足的设备上应用。针对上述问题,本文在YOLOv5(you only look once version 5)的结构基础上,提出一种轻量化单阶段目标检测网络架构,称为E-YOLO(efficient-YOLO)。方法利用E-YOLO架构构建了E-YOLOm(efficient-YOLO medium)与E-YOLOs(efficient-YOLO small)两种不同大小的模型。首先,设计了多种更加高效的特征提取模块以减少冗余的卷积计算,对模型中开销较大的特征图通过下采样、特征提取、通道升降维与金字塔池化进行了轻量化设计。其次,为解决多尺度特征融合带来的冗余开销,提出了一种高效多尺度特征融合结构,使用多尺度特征加权融合方案减少通道降维开销,设计中层特征长跳连接缓解特征流失。结果实验表明,E-YOLOm、E-YOLOs与YOLOv5m、YOLOv5s相比,参数量分别下降了71.5%和61.6%,运算量下降了67.3%和49.7%。在VOC(visual object classes)数据集上的平均精度(average precision,AP),E-YOLOm比YOLOv5m仅下降了2.3%,E-YOLOs比YOLOv5s提升了3.4%。同时,E-YOLOm的参数量和运算量相比YOLOv5s分别低15.5%与1.7%,mAP@0.5和AP比其高3.9%和11.1%,具有更小的计算开销与更高的检测效率。结论本文提出的E-YOLO架构显著降低了单阶段目标检测网络中冗余的卷积计算与多尺度融合开销,且具有良好的鲁棒性,并优于对比网络轻量化方案,在低运算性能的环境中具有重要的实用意义。
【目的】针对红外相机拍摄的野生动物图像数据量大、无效图像占比多、图像背景复杂等问题,提出一种可对图像进行自动、高准确率识别的模型,为生物多样性研究和野生动物保护工作提供更高效的支持。【方法】收集整理近4年来北京园林绿化生态系统监测网络各站点红外相机拍摄的约5 TB图像数据,对其手工标注并进行数据增强后自建10类共4234张图像数据集。基于ConvNeXt卷积神经网络,结合北京地区野生动物图像数据集特点,设计BSGG-ConvNeXt模型,使用BlurPool、SENet、全局响应归一化层(GRN)、GCNet提升模型识别能力,并在自建数据集上探究训练策略对ConvNeXt网络识别准确率的影响,通过与其他经典模型比较,明确BSGG-ConvNeXt模型的优势。利用公开的红外野生动物Snapshot Serengeti(SS)数据集和Caltech Camera Traps(CCT)数据集,验证模型的泛化能力。【结果】以ConvNeXt的ConvNeXt-T网络尺寸模型为例,其在自建数据集中的准确率为74.13%,乘加累积操作数(MACs)为4.47×10^(9)。应用不同改进方案发现,使用BlurPool后准确率提升2.2%,MACs降至1.07×10^(9);使用SENet后准确率提升3.2%;使用GRN并删掉缩放层后准确率升至87.18%,参数数量增至27.88×10^(6);使用GCNet后在不增大计算量的情况下准确率升至75.44%,但参数数量增至28.25×10^(6)。将上述改进方案结合得到的BSGGConvNeXt应用于ConvNeXt-T模型获得BSGG-ConvNeXt-T模型,参数数量虽有少量增多,但MACs降为1.07×10^(9),模型准确率升至83.63%,高于原模型。使用预训练权重后的BSGG-ConvNeXt-T模型准确率可达94.07%,高于ResNet-50(76.39%)、ResNeXt-50(87.60%)、MobileViT(90.00%)、DenseNet(87.66%)、RegNet(69.90%)、ConvNeXtv2(91.93%)、SwinTransformer的(86.23%)和MobileOne(71.53%),将BSGG-ConvNeXt模型应用于4种不同网络尺寸的ConvNeXt模型后,在自建数据集中的表现均优于未改进模型。BSGG-ConvNeXt模型在SS数据集中的识别准确率达50.28%,在CCT数据集中的识别准确率达56.15%,均高于原模型的准确率。【结论】BSGG-ConvNeXt模型识别红外相机拍摄的野生动物图像准确率更高,在自建、公开的野生动物红外图像数据集上均有较好表现,且具有一定泛化能力。
暂无评论