版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:上海工程技术大学电子电气工程学院上海201620
出 版 物:《北京化工大学学报(自然科学版)》 (Journal of Beijing University of Chemical Technology(Natural Science Edition))
年 卷 期:2025年第52卷第1期
页 面:113-121页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(61802253) 上海市地方能力建设项目(21010501500) 上海市“科技创新行动计划”社会发展科技攻关项目(21DZ1204900)
主 题:人-物体交互检测 计算机视觉 深度学习 目标检测 视觉关系
摘 要:人物交互(human-object interaction,HOI)检测在复杂场景理解中发挥着至关重要的作用。目前的大多数方法都以一阶段的方式将参数交互查询直接映射到一组HOI预测中,这导致丰富的交互结构没有被充分挖掘和利用。对此可以通过多模态数据获取更多维度的信息,从而更全面地理解人物之间的交互行为。为此设计了一种Transformer风格的HOI检测器,该检测器基于查询的方式检索对比语言图像预训练(CLIP)知识,然后执行交互建议生成,通过结构感知网络将非参数交互建议转换为HOI预测。本文创新性地将CLIP知识迁移到HOI检测中,并通过对整体语义结构和局部空间结构进行额外编码提高了预测结果的准确性。实验结果表明,所提模型在公共数据集V-COCO上的准确率达到了64.83%,在HICO-DET数据集上的准确率达到了28.78%,与现有的HOI检测算法相比展现出优越的性能,证明了该算法的有效性。