[目的/意义]葡萄作为全球综合产值最大的经济作物之一,其产量估计在农业经济发展中具有重要的意义。然而,目前葡萄产量预测困难且成本高。为解决上述问题,本研究提出了一种基于迁移学习的多模态检测框架,旨在实现不同品种葡萄的检测和计数,从而为葡萄产量预测及果园智能化管理提供有效支持。[方法]该框架利用公开数据集的预训练模型进行特征提取,并通过特征增强模块提高葡萄图像和文本之间的跨模态融合效果。在跨模态查询选择阶段,该框架通过语言引导的查询选择策略,从葡萄图像中筛选查询,进而采用跨模态解码器输出相应的预测结果。[结果和讨论]与9个基线模型相比该方法在检测和计数方面均展现出最优效果。具体而言,在检测任务上达到80.3%的交并比(Intersection Over Union, IoU)阈值为0.5时的平均精度均值(Mean Average Precision, mAP);在计数任务上实现了1.65的平均绝对误差(Mean Absolute Error, MAE),2.48的均方根误差(Root Mean Square Error, RMSE)。值得关注的是,该方法在识别不同目标大小的效果均表现较好,并且在不同环境条件下表现出良好的泛化能力和更快的收敛速度。[结论]本研究提出的葡萄检测与计数方法能够为精准农业提供强有力的技术支持。
暂无评论