目的图像修复技术虽然取得了长足进步,但是当图像中缺失区域较大时,非缺失区域提供的信息量非常有限,从而导致难以产生语义信息一致的内容来增强修复图像和真实图像的视觉一致性;同时图像修复常使用两阶段网络结构,基于该结构的模型不仅需要较长的训练时间,还会导致图像修复效果对第1阶段输出结果依赖性较强。针对上述问题,提出了一种基于双解码器的增强语义一致的图像修复方法。方法使用双解码器网络结构消除两阶段修复方法中存在的依赖性问题,同时有效缩短模型的训练时间;利用一致性损失、感知损失和风格损失,更好地捕获图像的上下文语义信息,解决图像修复任务中出现的视觉不一致的问题。此外,本文使用了跳跃连接,并引入多尺度注意力模块和扩张卷积,进一步提高了网络的特征提取能力。结果为了公正地评价,在CelebA、Stanford Cars和UCF Google Street View共3个数据集上对具有规则和不规则缺失区域的图像分别进行实验,采用客观评价指标:均方误差(L_(2))、峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)、FID(Fréchet inception distance)和IS(inception score)进行评价。实验结果表明本文方法修复的图像不仅在视觉上有明显的提升,而且取得了较优的数值。如规则缺失区域下,在CelebA数据集中,本文方法的FID(越小越好)比性能第2的模型在数值上减少了39.2%;在UCF Google Street View数据集中,本文方法的PSNR比其他模型在数值上分别提高了12.64%、6.77%、4.41%。结论本文方法有效减少了模型的训练时间,同时消除了两阶段网络模型中的依赖性问题,修复的图像也呈现出更好的视觉一致性。
视频异常事件检测与定位旨在检测视频中发生的异常事件,并锁定其在视频中发生的位置。但是视频场景复杂多样,并且异常发生的位置随机多变,导致发生的异常事件难以被精准定位。本文提出了一种基于卷积自编码器分块学习的视频异常事件检测与定位方法,首先将视频帧进行均匀划分,提取视频帧中每一块的光流和方向梯度直方图(Histogram of oriented gradient,HOG)特征,然后为视频中的不同图块分别设计卷积自编码器以学习正常运动模式特征,最后在异常事件检测过程中利用卷积自编码器的重构误差大小进行异常判断。该方法可以有效地针对视频不同区域进行特征学习,提升了异常事件定位的准确度。所提方法在UCSD Ped1、UCSD Ped2、CUHK Avenue三个公开数据集上进行实验,结果表明该方法能够准确定位异常事件,并且帧级别AUC(Area under the curve)平均提升了5.61%。
暂无评论