版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:湘潭大学
学位级别:硕士
导师姓名:肖芬
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:显著性计算 社交场景 眼动追踪 显著图融合 扫视路径
摘 要:得益于人类的视觉注意机制(Visual Attention Mechanism,VAM),当人眼观看日常生活中的图像数据时,往往能够快速聚焦于场景中令人感兴趣的区域。如果让计算机像人类一样能够快速找到表征图像主要内容的区域,将有效提高图像处理效率和提升计算机的场景理解水平,为人们提供更及时、更智能化的服务。图像显著性计算正是为了能在计算机上模拟人类视觉注意力机制而衍生出的一个研究领域。图像显著性计算通常借鉴生物学和认知心理学分析视觉机理的一些理论成果,使用计算建模的方法提取图像中的视觉显著区域。经过二十多年的发展,图像显著性计算研究取得了重大进展,很多算法在一些通用数据集上已经表现出接近人类的水平。但大多数显著性计算方法在复杂场景中的表现仍有待提高,尤其在富含高级视觉线索的社交场景中。社交场景在日常生活中随处可见,包含丰富的社交先验信息,而这些先验特征往往是计算机难以感知的,因此研究社交场景下的图像显著性计算对推动该领域的发展和应用具有十分重要的意义。本文借鉴认知心理学、神经生物学中视觉注意机制的理论成果,结合眼动实验数据分析结论,对社交场景下图像显著性计算方法进行研究,主要工作如下:(1)构建社交场景图像数据集GS232,基于认知心理学相关理论,通过分析眼动数据分布规律探索社交场景中人类视觉注意机制的形成机理。本工作收集232幅社交场景下的图像刺激样本,设计眼动实验获取有效眼动数据,其中每幅图像采集了10名观测者在3种不同视觉任务下的眼动数据;根据认知心理学相关理论的指导,对眼动数据进行统计分析,归纳出人脸、视线特征在社交场景显著性形成中的线索。(2)提出一种社交场景下基于先验知识特征融合的图像显著性计算方法,构建针对社交场景的有效显著性模型。本工作根据社交场景眼动数据分析结果,对社交场景中自顶向下的视觉注意机制进行建模,用人脸检测器Pyramid Box提取人脸特征,用Gaze Net获取视线特征,并结合高斯混合模型(Gaussian Mixture Model,GMM)生成自顶向下的显著图;利用遗传算法将自顶向下的显著图与基于底层特征的自底向上显著图进行融合,得到更符合场景特性的显著性表达。(3)提出一种图像基准扫视路径生成策略,探索社交场景下图像扫视路径的合理生成方法。本工作从动态显著性的角度展开研究,探索一种基准扫视路径生成策略,为社交场景图像数据集生成不同任务之下的扫视路径;并结合社交场景先验信息改进一种扫视路径生成算法,生成的扫视路径与基准扫视路径更为吻合。