版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:复旦大学计算机科学技术学院 复旦大学上海市智能信息处理重点实验室
出 版 物:《计算机系统应用》 (Computer Systems & Applications)
年 卷 期:2025年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:上海市科学技术委员会(22511105000) 上海市类脑芯片与片上智能系统研发与转化功能型平台(17DZ2260900)
主 题:以物体为中心的学习 无监督学习 组成式场景建模 扩散模型 生成模型
摘 要:以物体为中心的学习方法旨在以组成式的方式对场景进行解析与建模,并提取场景中物体的表示.早期以物体为中心的学习方法通常使用简单的像素混合解码器来建模场景.然而,这些方法在处理复杂的合成数据集和真实世界数据集时通常表现不佳.相比之下,最近的一些以物体为中心的学习方法已经开始尝试使用结构更为复杂的解码器(例如自回归Transformer和扩散模型)来更有效地提取物体表示并建模场景.尽管这些近期的方法相比于早期的方法具有更好的效果,但这些方法采用的非组成式建模方法与人类的直觉相悖,且它们无法根据物体的表示生成对应的物体图像.为了解决这个问题,本文提出了以物体为中心的扩散模型(object-centric diffusion model,OCD), OCD使用一种改进的扩散模型作为解码器,在重构场景的过程中分别生成物体的外观和掩码,从而在保证模型效果的同时实现图像的组成式建模.大量的实验证明, OCD在多种数据集(包括两个合成数据集和两个真实世界数据集)上的图像分割和生成任务中表现出色,证明了其普适性和有效性.