深度子空间聚类DSC(Deep Subspace Clustering)是近年来提出的子空间聚类算法。DSC采用自动编码器AE(Auto Encoder)作为基础的网络结构,通过一系列的编码层将输入数据非线性地转换到低维的潜在空间,以抽取数据的潜在特征。基于潜在特征的聚类能更好地发现线性及非线性子空间。DSC不需要提供数据的先验信息,属于无监督学习。在面对实际的数据集时,用户或多或少会了解一些数据信息。这些信息可能是不完整的、不确切的和不准确的,是弱监督信息。如何将少量的弱监督信息有效嵌入聚类过程是值得研究的问题。本文以深度子空间聚类为基础,探讨将少量的真实标签信息和模糊标签信息嵌入到聚类过程中的方法,以期引导聚类过程得出更精确的聚类结果,提高DSC聚类的性能。本文主要工作如下:
(1)提出基于伪标签纠正的半监督深度子空间聚类算法SCPC(Semi-supervised Deep Subspace Clustering Base on Pseudo-Label Correction)。首先,通过利用少量已知样本标签,对分类层产生的不精确伪标签进行匹配和纠正,以提高伪标签的精确性和稳定性;其次从已知样本标签中获得成对样本信息,通过对比学习对自表达系数矩阵进行约束来提高聚类的性能。在测试数据集上取得了比对比算法更好的结果。
(2)提出带有模糊标签的自加权深度子空间聚类DSCF(Self-weighted Deep Subspace Clustering with Fuzzy Labels),用于发现具有少量模糊标签的数据集的子空间。在所提出的损失函数中,考虑数据对象的局部关系来重构输入数据,建立模糊标签和伪标签的一致性约束,并设计对象的自加权相似性函数来嵌入模糊标签。通过最小化损失函数来学习自表达系数矩阵,以联合优化重建误差和综合约束。算法中涉及到的模糊标签是不确切信息,也包含了不精确的标签信息。在多个图像数据集上的测试结果表明,DSCF算法的聚类性能比对比算法有优势。
暂无评论