版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:华中师范大学
学位级别:硕士
导师姓名:Leyuan Liu
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:图像的模态指的是在不同的采集条件下获得的对同一对象不同属性特征的描述。例如:对于行人来说,相同姿态下,在可见光条件下使用普通相机拍摄得到的RGB图像和使用红外相机拍摄到的NIR图像就是该对象的两种不同模态图像。显然,对于同一个对象,不停模态下的图像蕴含着不同的特征。而基于多模态协同的任务有助于提升对象的表达能力,获取更全面精确的信息,从而提升和扩展其余应用如跨模态行人识别等的处理能力。一般而言,跨模态图像生成要求学习两种模态图像之间一对一的映射关系,且对生成的目标模态图像具有严格的输出要求:尽可能达到与真实目标模态图像像素级别的“精确匹配。然而,当模态之间差异较大的时候,跨模态图像之间的转换生成是非常困难的。这是因为在大多数情况下,图像到图像的转换是个不良定义的问题,即不同领域图像之间的转换关系是不明确的。也就是说,对于给定的源图像,可能存在多张符合定义的目标领域图像。 早期的图像到图像转换可以追溯到图像类比算法。该算法从多对输入-输出图片中学习到对应像素点的转换关系,再把这种关系运用到新的图片转换上,从而得到对应的转换图片。近年来,卷积神经网络凭借其强大的多层次图像特征提取和表示能力,被广泛应用于计算机视觉领域的众多任务中,并表现出了优异的性能,随着基于深度学习的生成模型的发展,研究者开始将深度学习模型应用到该算法中,取得了较好的转换效果。此时,图像转换任务依然可以看作一种广义的实例分割任务。由于生成对抗网络在清晰图像生成上的优异表现,基于GAN的网络模型开始被用来处理图像转换任务。在该任务中,生成器输入的不再是随机噪声,而是一张需要进行转换的图像。研究者们使用大量一一配对的图像结合条件生成对抗网络,提出了一个通用的图像到图像转换架构并选择合适的损失函数对模型进行优化,在很多图像到图像转换任务中取得了很好的结果。 本文研究的跨模态图像生成是一种特殊的图像到图像转换,其要求学习两种模态图像之间一对一的映射关系,且对生成的目标模态图像具有严格的输出要求。虽然现有的图像到图像转换算法在很多任务中能够得到看上去比较真实的目标领域图像,但是生成的图像与真实图像之间的像素值及图像结构差异仍然比较大。因此,本文的跨模态图像生成要求生成的图像和真实图像之间尽可能达到像素级别的一致性同时尽可能的保留图像结构信息。并基于此提出了一种解决方案:利用边缘损失函数替代原模型中的内容损失函数,用于解决原模型中生成图像边缘模糊以及因为内容损失函数约束太强而造成的生成器泛化能力减弱的问题。同时,引入局部像素转换用于生成器的预训练中,提升生成器的像素转换精度。具体工作如以下各部分所述: (1)提出了一种边缘损失函数用于替代原CycleGAN模型中的内容损失函数。这是因为第一,边缘损失可有效提升生成图片的边缘精度。无论是RGB模态的图像还是NIR模态的图像,它们之间的边缘检测的结果是一致的。其次,对于内容损失函数,其约束使得生成器的输出与输入趋于一致,生成器的泛化能力减弱。具体来说,给定一个真实样本xli:,生成样本譬七依然对应着原真实样本。而最小化内容损失D(X七,X足)z是无意义的。相反的,对于边缘损失函数来说,即使给定的边缘与生成边缘完全一致,由于RGB图像与NIR图像的边缘一致性,最小化边缘损失依然有着实际意义。对于各区域间的像素转换,则由如下所述的使用局部像素的生成模型预训练完成。 (2)通过图像分割,扩充对称训练集,完成基于像素转换的预训练。跨模态图像生成要求学习两种模态图像之间一对一的映射关系,且对生成的图像具有严格既定的输出要求。然而,目前的图像到图像转换算法在处理此类问题时无法得到满足实际应用要求的结果。基于此,本文提出了一个解决方案,通过额外提供少量的真实目标观测信息来帮助模型学习两种模态图像之间的一对一映射关系。首先,将输入的高质量大图像分割成大量低质量小图像。可以极大的扩充用于预训练的数据集。受限于传感器设备,捕捉动态物体在同一光源角度的不同模态的对称图像及其困难。而对于静态背景的跨模态对称图像的获取则简单的多。由于预训练阶段生成器只关注于局部的像素转换,并不关心全局的图像结构。所以,使用局部像素预训练还可以通过使用其它更易获取的基于静态物体的跨模态对称数据集进行预训练。 (3)在生成器的预训练阶段添加判别器损失函数。对于同样是像素转换的实例分割任务,其要优化的目标损失函数为D(丘,J七)2。在图像转化中,这是远远不够的。这是由于实例分割的损失函数只关心所有像素的平均损失,并不关心生成图像的结构。同时,基于共享潜在空间假设可知,深度生成模型通过将一个领域的知识映射到潜在空间来编码一个领域内的隐式知识,进而可以通过控制潜在变量在学习域内生成特定的样本。因此,一旦该模型学会了一组域内的条件生成样本,使用其生成另一组条件样本将变的