在很多实际应用问题中,高维数据集可能具有缺失数据值。如在视频监控中,监控目标可能被其他物体部分遮挡,此时只能获取监控目标的部分图像,这些被遮挡的图像即为缺损数据,如何挖掘缺损数据的本质特征尤其是非线性特征逐渐成为机器学习和数据挖掘的一个热点。流形学习作为一种非线性的降维技术,能够较好地挖掘高维数据的非线性特征。但是,传统的流形学习算法大多基于一种近似理想的情况下,即样本数据均匀采样于一个高维欧式空间中的低维流形。当数据缺损时,流形学习的效果会受到很大的影响。因此,本文主要围绕现有流形学习算法无法较好地挖掘缺损数据集的非线性特征问题展开,从构造缺损数据集的局部邻域和局部几何结构出发,提出可以较好地挖掘缺损数据集的流形学习算法。本文主要有以下两个方面的工作:1.针对缺失像素的图像集,我们提出了一种面向缺失像素图像集的修正拉普拉斯特征映射算法。该算法将缺失像素图像集看成向量集,首先利用图像向量之间的余弦相似度衡量缺失像素图像之间的距离,构造样本点的近邻域。然后提出一种新的权值构造函数,构造权值矩阵。最后,通过极小化价值函数计算样本点的低维嵌入坐标。在多组真实图像集上的分类实验结果表明,修正的拉普拉斯特征映射算法可以很好地挖掘缺失像素图像集的内在流形结构,减弱缺失像素带来的不良影响。2.我们提出了一种基于核范数正则化的局部切空间排列算法(Local Tangent Space Alignment via Nuclear Norm Regularization,简称LTSA-NNR)。该算法首先使用余弦相似性的度量方法构造缺损数据的局部邻域,然后提出了一种核范数正则化模型用于提取邻域的局部坐标,区别于传统的流形学习算法,LTSA-NNR算法提取的局部坐标的维度位于一个合理的范围内。最后,将这些局部坐标进行排列,构造缺损数据的全局坐标。我们在一些真实数据集上进行了多个可视化实验和分类实验,用以证明LTSA-NNR算法的有效性。
暂无评论