[目的/意义]葡萄作为全球综合产值最大的经济作物之一,其产量估计在农业经济发展中具有重要的意义。然而,目前葡萄产量预测困难且成本高。为解决上述问题,本研究提出了一种基于迁移学习的多模态检测框架,旨在实现不同品种葡萄的检测和计数,从而为葡萄产量预测及果园智能化管理提供有效支持。[方法]该框架利用公开数据集的预训练模型进行特征提取,并通过特征增强模块提高葡萄图像和文本之间的跨模态融合效果。在跨模态查询选择阶段,该框架通过语言引导的查询选择策略,从葡萄图像中筛选查询,进而采用跨模态解码器输出相应的预测结果。[结果和讨论]与9个基线模型相比该方法在检测和计数方面均展现出最优效果。具体而言,在检测任务上达到80.3%的交并比(Intersection Over Union, IoU)阈值为0.5时的平均精度均值(Mean Average Precision, mAP);在计数任务上实现了1.65的平均绝对误差(Mean Absolute Error, MAE),2.48的均方根误差(Root Mean Square Error, RMSE)。值得关注的是,该方法在识别不同目标大小的效果均表现较好,并且在不同环境条件下表现出良好的泛化能力和更快的收敛速度。[结论]本研究提出的葡萄检测与计数方法能够为精准农业提供强有力的技术支持。
多视图聚类已经被广泛研究,它能够采用可用的多源信息来实现更好的聚类性能.然而,大多数之前的工作仍存在两个不足:(1)它们通常关注多视图属性特征的场景,很少留意到多视图属性图数据;(2)它们主要尝试发现一致的结构或多个视图之间的关系,而忽略了多视图观测之间潜在的高阶相关性。为了解决这些问题,我们从广义角度出发,提出了一种新颖的方法,称为混合阶相似性的多视图聚类(Multiview Clustering by Hybridorder Affinity,MCHA).它将结构图和多视图属性特征巧妙融合,同时考虑了低秩概率相似性图和混合阶的相关性.具体而言,我们通过图过滤策略构建了一组保留几何结构的视图特定的平滑表示.同时,我们将从平滑表示中学习得到的多视图概率相似性图堆叠成一个张量,并对该张量给予低秩属性的约束.这可以很好地恢复视图间更高阶的相关性.在八个基准数据集上的实验表明,我们所提出的MCHA方法具有最先进的有效性.
暂无评论