当前场景分类任务大多面向高分辨率遥感图像,由于缺乏光谱信息限制了它的场景鉴别能力,而高光谱遥感图像具有“空谱合一”的特性,在场景分类问题上具有独特优势。针对高光谱遥感图像中地物分布复杂,以及高光谱图像中维度高、存在冗余等问题,本文提出一种高光谱场景分类流形蒸馏网络(hyperspectral scene classification manifold distillation network,HSCMDNet),有效提高了分类性能。对于遥感图像地物分布复杂问题,HSCMDNet模型使用基于移位窗口的层次化视觉Transformer(hierarchical vision transformer using shifted windows,SwinT)作为教师网络来充分挖掘高光谱图像的长距离依赖信息,捕获不同波段之间的关系。在此基础上,在教师网络与ResNet-18学生网络之间设计流形蒸馏损失,通过在流形空间中匹配学生和教师的中间层输出特征实现教师模型的知识更有效地向轻量化学生模型转移,缓解了高光谱图像中维数高导致的高计算复杂性问题。在欧比特高光谱图像场景分类数据集(Orbita hyperspectral image scene classification dataset,OHID-SC)及天宫二号遥感图像自然场景分类数据集(natural scene classification with Tiangong-2 remotely sensed imagery,NaSC-TG2)上,所提出的HSCMDNet网络的最佳分类精度分别达到了93.60%和94.55%。
光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果...
详细信息
光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果与文本模态间异构性的重要挑战.为解决上述问题,本文提出了一种基于文本-视觉的多模态光场图像质量评估模型.具体来说,在视觉模态方面,我们设计了多任务模型,结合边缘自动阈值算法有效丰富了光场图像的关键表示特征.在文本模态方面,基于输入噪声特征与预测噪声特征的对比,准确识别光场图像的噪声类别,并验证了噪声预测对优化视觉表示的重要性.基于上述研究,进一步提出了一种优化的通用噪声文本配置方法,并结合边缘增强策略,显著提升了基线模型在光场图像质量评估中的准确性和泛化能力.此外,通过消融实验,评估了各组件对整体模型性能的贡献,验证了本文方法的有效性和稳健性.实验结果表明,该方法不仅在公开数据集Win5-LID和NBU-LF1.0的实验中表现出色,还在融合数据集中展示出优秀的实验结果,与现有最优算法相比,本文所提方法在两个数据库中的性能分别提升了2%和6%.本文提出的噪声验证策略和配置方法不仅为图像质量评估中的噪声预测任务提供了有价值的参考,也可用于其它噪声预测类型的辅助任务.
暂无评论