版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:山东师范大学
学位级别:硕士
导师姓名:郑元杰
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:三分图生成 数字抠图 深度学习 单样本学习 图像分割
摘 要:作为一项经典的图像处理技术,数字抠图(Digital Matting)广泛应用于电视以及电影拍摄中。数字抠图的研究目标是完美的将图像中前景和背景分离开,随后可以为图像更换虚拟背景等一系列操作。由于抠图问题的欠约束性,数字抠图算法一般需要用户手绘一些区域(绝对前景、绝对背景以及未知区域),为数字抠图提供更多的资讯信息。这种资讯信息包括精确绘制的三分图(Trimap)以及涂鸦生成的草图(Scribble)两种。然而,对每一张图像绘制准确的三分图耗费大量的人力成本,草图所提供资讯信息太少,鲁棒性差,导致抠图精度很低。单样本学习(One-shot Learning)模拟人类快速学习能力,近几年受到研究人员的广泛关注。单样本学习实现了在仅有一个标注样本的前提下识别一个未知语义类,无需大量标记数据进行重新训练,大幅降低了标注工作量。如今单样本学习技术已经广泛应用于图像分类、语义分割领域。受此启发,本文拓展单样本学习方法应用于数字抠图,同时解决了绘制三分图耗时、费力,以及绘制草图鲁棒性差的问题。具体来讲,本文提出的模型首先通过用户提供交互信息(几次点击),产生粗略的前景、背景分割结果,并采用条件随机场对分割结果进行优化,随后通过膨胀、消融的方法对优化后的分割结果进行处理产生类似于专业人员手绘的三分图,最后本文设计了基于深度神经网络的抠图模型用于生成抠图结果。值得注意的是,本文提出的基于单样本学习模型对于未知语义类具有很好的泛化能力,这意味着对于相同未知语义类中的所有图像,我们仅需要用户标注其中任意一张图像,就可以生成此语义类中所有图像的抠图结果。本文的主要工作包括以下四个方面:(1)本文构建了基于单样本学习的前景、背景分割模型。首先,本文设计了条件分支用于结合图像与用户提供的咨询信息(前景点击、背景点击)产生语义表征(前景表征、背景表征)。其次,本文设计了分割分支用于结合语义表征和分割图像产生分割二分类前景、背景分割结果。(2)针对产生的分割结果不精确问题,本文通过条件随机场算法对分割结果进一步优化,随后通过膨胀、消融的方法处理分割结果生成三分图。(3)本文采用深度编码-解码网络对抠图结果进行预测,提高了抠图精度并且加快了运行速度。(4)为了验证本文提出算法的可行性、运行效率以及精确度,本文进行了四部分实验,包括生成三分图精确度对比,算法运行效率对比,模型指导能力验证以及模型的特征传递能力验证。并且对于实验结果进行分析。本文的创新点在于以下两个方面:(1)本文提出的基于单样本学习的数字抠图方法,首次将单样本学习技术与数字抠图技术相结合。本方法通过用户提供的几次点击生成三分图,无需用户手绘,降低了用户交互工作量。并且算法具有更好的鲁棒性,能够取得相对高的抠图精度。(2)本文提出的模型可以有效的提取未知语义类的表征,并利用此语义表征作为指导生成三分图。这意味着对于任意未知语义类中的所有图片,我们仅需标注其中一张,就可以得到此语义类中所有图像的三分图。进一步降低了用户交互工作量。