中国地质大学(武汉)程青:一种渐进式耦合多尺度CNN与浓缩注意力Transformer的高光谱图像超分辨率方法|2025年7期

360影视 日韩动漫 2025-09-09 23:55 1

摘要:高光谱图像超分辨率技术旨在通过提升低分辨率高光谱图像的空间细节和质量,使其更好地服务于环境监测等领域。近年来,基于深度卷积神经网络的机器学习技术在光谱单图超分辨率领域上有着广泛的发展与应用,但仍存在难以兼顾空间多尺度局部特征与全局细节特征学习的缺陷。对此,本文

本文内容来源于《测绘学报》2025年第7期(审图号 GS京(2025) 1330

号)

DRformer:一种渐进式耦合多尺度CNN与浓缩注意力Transformer的高光谱图像超分辨率方法

程青, 汪博轩 , 张洪艳

摘要

高光谱图像超分辨率技术旨在通过提升低分辨率高光谱图像的空间细节和质量,使其更好地服务于环境监测等领域。近年来,基于深度卷积神经网络的机器学习技术在光谱单图超分辨率领域上有着广泛的发展与应用,但仍存在难以兼顾空间多尺度局部特征与全局细节特征学习的缺陷。对此,本文设计了一种基于渐进式采样策略耦合卷积神经网络与Transformer架构的融合网络DRformer。一方面,通过多尺度自适应加权光谱关注模块,用于局部特征的多尺度学习并选择性强调光谱信息特征并进行第一次上采样;另一方面,在网络后半段进行第二次上采样后融入基于Transformer架构构建的CADR模块,用于处理图像的全局特征,增强有效信息。为了验证本文方法的有效性与稳健性,选取Chikusei与Houston2013数据集开展试验,相较于已有的GDRRN、SSPSR、EUNet及MSDformer等深度学习方法具有更好的超分辨率性能,并且设计了消融试验以验证本文方法中各模块的有效性。

第一作者: 程青(1987—),女,博士,研究员,博士生导师,主要从事遥感信息处理与应用方面的研究。E-mail:

通信作者: 张洪艳 E-mail:zhanghongyan@cug.edu.cn

本文引用格式

程青, 汪博轩, 张洪艳.

CHENG Qing, WANG Boxuan, ZHANG Hongyan.

高光谱图像(hyperspectral image,HSI)通常由数十甚至数百个光谱带组成,提供了丰富的光谱信息来源。这些丰富的信息使高光谱图像能够有效地区分不同的物体、材料和土地覆盖类型,在矿产勘探 [1] 、医学图像处理 [2-3] 、遥感地物分类 [4-6] 及环境监测 [7] 等领域得到了广泛的应用。然而,由于传感器和采集设备的硬件限制,高光谱图像虽然具有很高的光谱分辨率,但空间分辨率却相对较低。这一特性难以满足某些对空间分辨率和精度要求较高的任务。因此,如何在保持光谱分辨率的同时提高空间分辨率,成为当前研究的重点。

为了解决上述问题,直接的办法是提高光学器件的精度和传感器的分辨率,但硬件传感器的改进需要高昂的成本。为了降低成本,学者们致力于使用后处理的方法提升高光谱图像的分辨率。它的原理是通过利用输入图像的信息、先验知识或来自外部的附加数据来计算丢失的高频细节,从低分辨率图像生成高分辨率图像。光谱图像超分辨率方法可分为两大类:光谱融合超分辨率方法 [8-9] 和光谱单图超分辨率方法(single hyperspectral image super-resolution,SHSR) [10] ,前者需要额外的辅助信息,如全色图像 [11] 、多光谱图像 [12-13] 等增强空间分辨率,而后者则仅依靠单张低分辨率高光谱图像来恢复相应的高分辨率图像。尽管光谱融合超分辨率方法受到广泛关注,但其要求低分辨率高光谱图像和高分辨率辅助图像来自同一场景,且复杂的配准和预处理操作都会影响算法的精度。为了克服这些问题,SHSR方法应运而生。由于SHSR方法在重建过程中不需要额外的辅助信息,且在大多数情况下重建效果良好,目前已广为运用。

现有的SHSR技术主要有基于插值、基于模型和基于深度学习的方法。基于插值的方法包括最近邻插值法、双线性插值法和双三次插值法 [14] ,这些方法适用于对计算效率和实现简便性有较高要求的场景,但在高光谱图像重建中往往会出现细节丢失、结构模糊和边缘不清晰等问题。基于模型的方法大多为传统方法,如基于矩阵分解的方法 [15-16] 和基于张量表示的方法 [17-18] 等。然而,这些方法存在诸多局限性。如,基于矩阵分解的方法可能无法有效区分高频细节,导致重建效果不佳;基于张量表示的方法过于依赖字典的选择并且需要大量训练样本。为了解决这些问题,基于深度学习的方法逐渐广泛应用于超分辨率任务中。如,文献[19]提出SRCNN方法,其通过构建一个端到端的框架,从大量的训练数据中学习低分辨率图像与高分辨率图像之间的非线性映射,展现出优于传统方法的性能。随后,文献[20]在残差学习的基础上提出了更深层的甚深卷积网络(VDSR),通过加深模型的训练层数以获得更佳的超分辨率效果。文献[21]提出了一种极深网络增强深度残差网络(EDSR),通过叠加修改后的残差块进一步提升了性能。文献[22]设计了一种基于注意力GAN的网络SRAGAN,这类生成式的网络能够为遥感图像重建更多细节。此基础上,文献[23]提出了SpecGAN,其设计的双分支光谱特征融合模块使生成式的过程更关注与光谱恢复相关的细节。此外在遥感图像智能解译领域中,如Flex-MCFNet通过多阶段信息互补融合网络和灵活的数据增强策略,有效提升了高光谱图像分类的性能,其多模态信息融合思想为超分辨率任务提供新的思路 [24] 。GloRe-HCNN通过全局推理单元提取全局特征,减少了模型对大量训练样本的需求,为超分任务提供了全局特征提取方法 [25] 。在过去的几年里,还有许多基于深度学习的超分辨率解决方案被提出,如三维卷积 [26-28] 、注意力机制 [29-30] 、多尺度特征学习 [31] 等。这些方法各有优劣,如三维卷积能够同时捕捉空间和时间特征,适用于处理高光谱图像数据;注意力机制能够增强模型的表达能力,使其能够灵活地关注重要信息;多尺度特征学习则通过综合不同尺度的信息来提高模型对对象大小和形状的适应能力,增强了稳健性并改善了性能。但是,这些方法大多只适用于处理局部的特征,在全局特征提取方面,可能导致局部细节信息的丢失,影响模型的准确性和表现。此外,关注全局特征会极大地增加计算负担,导致效率降低。因此,平衡全局与局部特征的处理,成为了一个重要且值得研究的问题。近年来,Transformer架构在自然语言处理领域的成功引起了广泛关注,其强大的远程建模能力使其在各种任务中表现优异 [32] 。然而,Transformer的复杂计算严重限制了它在图像处理中的应用。为了解决这个问题,逐渐提出了一些基于轻量级结构的Transformer框架。首先,ViT(vision Transformer) [33] 被成功地应用到计算机视觉领域。此后,许多基于Transformer的低层视觉方法 [34-35] 逐渐被提出并应用于高光谱图像。SwinIR [36] 和SST [37] 是通过在多个Transformer模块后面添加卷积层,利用卷积神经网络(CNN)的局部感知能力来增强整体性能。这种组合有效地结合了卷积层的电感偏置与Transformer的灵活建模能力。Interactformer是采用三维卷积和Transformer块相结合的架构 [38] ,同时提取互补的空间光谱特征,但存在所需计算资源较多的问题。文献[39]提出了一种混合注意力转换模型(HAT),该模型结合了通道注意力和基于窗口的自我注意力方案,可以有效地学习全局统计和局部信息,但引入的窗口间交互机制无法有效提取长距离空间光谱特征信息。文献[40]使用ResNet代替多层感知机(MLP)对高光谱图像进行处理,取得了不错的效果,但是整体缺乏对重要局部信息的关注。

综上所述,当前方法存在光谱特征表示不足、未能有效兼顾长距离信息和重要局部特征等问题。此外,许多方法仍依赖Transformer中的MLP层来处理高光谱图像,但这种做法可能无法充分适应高维数据的特点,从而限制了模型的进一步优化。本文提出一种名为DRformer(dual-resource Transformer)的混合结构来实现单幅高光谱图像超分辨率重建,该模型整体采用渐进式上采样策略,分阶段逐步提升图像的空间分辨率,在网络前半部分设计了多尺度自适应加权光谱关注模块MAWSA(multi-scale adaptive weighted spectral attention module),运用分组策略并且通过自适应加权特征统计能够选择性地强调光谱信息特征,使模型整体上更好地提取光谱信息;此外,本文设计一个更加适合处理高光谱图像的Transformer模型CADR(condensed attention and dense residual connection),通过引入Condensed Attention机制,并利用DRNet代替传统Transformer中的MLP层,使其更加适合处理高光谱图像与捕捉远程的光谱依赖关系。通过两个高光谱数据集的定性和定量试验证明本文方法的有效性。

1 本文方法

将从以下4个部分介绍DRformer方法:DRformer整体网络结构、多尺度自适应加权光谱关注模块MAWSA、基于浓缩注意力机制与密集残差连接机制的Transformer模块CADR,以及损失函数。

1.1 DRformer网络整体框架

本文提出的DRformer网络整体框架如图1所示,其由卷积神经网络结构和Transformer架构两部分组成,分别用以学习局部特征与全局特征,并采用渐进式上采样策略来逐步细化图像细节。

图1

图1 DRformer网络整体框架

Fig. 1 The overall framework of the DRformer network

将输入的低分辨率高光谱图像记为 I

, C 表示高光谱图像的通道数, H 和 W 分别表示高光谱图像的高和宽,原始高分辨率高光谱图像(输入图像 I LR 模拟退化之前的真实值)记为

,输出的高分辨率高光谱图像记为

,其中 s 表示超分辨率的比例因子。通过DRformer网络将输入的低分辨率高光谱图像 I LR 预测为超分辨率高光谱图像 I SR ,并且使 I SR 尽可能接近于 I HR 为了利用高光谱图像相邻光谱波段之间的相关性,在网络前半部分采用分组策略进行局部特征的学习。首先,将输入的低分辨率高光谱图像 I LR 分成 T 组 [10] ,表示为

,每个高光谱图像组有 c 个通道,且有 o 个重叠波段,分组数

。为了有效提取局部信息,本文设计了MAWSA模块,从每组

中进行多尺度特征的提取,并通过自适应加权特征模块选择性地提取光谱信息特征。然后,对每个经过特征提取的分组进行第一次上采样,将其映射到原始高分辨率高光谱图像空间维度的一半,并通过一个3×3的卷积层进行浅层特征提取且使通道恢复到 c 。由第 t 个分组经过上述步骤得到最后的多尺度光谱特征

,表示为

式中, H MAWSA (·)表示MAWSA模块; H up (·)表示PixelShuffle上采样方法; H conv3 (·)表示3×3卷积层。

在提取完所有分组特征后,将所有分组特征连接起来得到局部多尺度特征

,可表示为

式中, H (·)表示拼接融合操作。在网络后半段,为了充分提取全局特征信息,首先对 F mlocal 进行二次上采样,将其映射到与原始高光谱图像同样的空间维度。其后,设计了一种CADR模块来捕获全局特征信息。利用 N 个CADR模块捕获全局空间光谱依赖关系,可以表示为式中, H (·)表示第 N 个CADR模块,

表示经过 N 个CADR模块后得到的全局光谱特征。

为了防止梯度爆炸并加快模型收敛,引入了残差连接。首先,将输入的 I LR 通过双三次采样映射到 H × W 的空间维度,并经过一个3×3卷积层进行浅特征提取,通道数扩展到 f (默认为256),得到残差特征。随后,CADR模块后连接的1×1卷积调整通道数为 f 。将残差特征与经过1×1卷积的全局光谱空间特征进行特征相加后,利用一个3×3卷积使其通道恢复到与 I HR 一致,上述操作可以表示为

(5)

式中, H Bicubic (·)表示双三次采样方法; H conv1 (·)表示1×1的卷积层; H conv3 (·)表示3×3的卷积层。1.2 多尺度自适应加权光谱关注模块(MAWSA) 超分辨率问题往往涉及图像特征的提取,试验证明采用空洞卷积在这一过程具有显著优势 [41] ,能够捕获更大范围的上下文信息,同时在不增加参数的情况下提高模型的计算效率。在采用空洞卷积进行多尺度特征提取的基础上,处理高光谱图像还要充分考虑到空间细节与光谱细节的恢复。现有方法大多采用空间注意力机制来恢复空间细节 [10] ,而对于恢复光谱细节,通常采用三维卷积进行处理,但三维卷积所需的计算时间相对较长 [26] 。故本文模型引入了自适应加权通道注意力机制AWCA [42] 且结合二维卷积的AWSA模块,该模块通过自适应加权特征统计,选择性地强调光谱信息特征,从而更有效地提取光谱信息。

综合以上考虑,如图2所示,本文设计的多尺度自适应加权光谱关注模块(MASWA),旨在更好地恢复高光谱图像的细节。在模块的多尺度特征提取中,首先采用3个空洞数为1、3、5的空洞卷积,结合不同大小的感受野以捕获多尺度的空间信息。在每个空洞卷积后采用Relu激活函数,引入非线性关系,增强网络的表示能力和特征的表达能力。然后将3组所得特征进行对应点相加,以

表示第 t 组的MAWSA输入,得到的多尺度特征表示为

式中, H Dconv1 (·)、 H Dconv3 (·)与 H Dconv5 (·)分别表示了空洞数为1、3、5的空洞卷积。图2

图2 多尺度自适应加权光谱关注模块(MAWSA)

Fig. 2 Multi-Scale adaptive weighted spectral attention module (MAWSA)

通过一组空间残差模块,得到多尺度空间特征

可以表示为

(·)表示空间注意力机制,由两个3×3的卷积与一个ReLU函数组成,用以提取空间特征。此外,将AWCA [36] 与CNN结合,设计为AWSA模块,可以选择性地挖掘光谱信息。AWSA模块首先经过两个3×3的卷积层与一个中间ReLU激活函数层,其后与通过AWCA模块算出的权重矩阵进行相乘,最后与

相加得到多尺度光谱空间特征

,可以表示为

式中, H AWSA (·)表示AWSA模块。具体来说,AWCA模块包含一个卷积层、一个Softmax函数、一个含有两个线性层且中间有一个PReLU激活函数的空间变换层、一个Sigmoid激活函数。首先通过1×1的卷积与Softmax函数获得加权的聚合信息,然后利用线性变换与Sigmoid函数进行训练得到每个光谱带之间的权重信息,最后与

相乘进行特征的映射。通过嵌入AWCA模块,提出的AWSA模块可以自适应地调整光谱特征重新校准,以促进网络的学习。

1.3 基于浓缩注意力机制与密集残差连接机制的Transformer模块(CADR)

在使用Transformer的计算机视觉研究中,ViT [33] 和Swin Transformer [36] 都取得了不错的效果,然而,这些方法主要关注数据像素级别的信息,而非通道级别。在遥感领域,特别是在高光谱图像中,通道数量可能激增至数百个,这使得通道间的自注意力机制成为一个亟待解决的重要问题。为此本文设计了一种基于浓缩注意力机制与密集残差连接的Transformer模块。首先,引入了浓缩注意力机制块来提取远程空间光谱信息,旨在解决传统Transformer关注点在像素级的问题。然后,采用DRNet代替了传统Transformer中的MLP层,相较于为离散数据而设计的MLP层和其他复杂的网络结构,DRNet可以更容易地从遥感数据的光谱维度探索特征,残差结构使网络在层数增多时,能够更加稳定地提高性能,并通过密集化策略来利用多级特征,从而实现更完整的图像细节恢复。 1 ,使用 N 个连续的CADR来提取全局的空间光谱特征。CADR在Transformer的基础上采用了浓缩注意力机制块 [43] 并且以DRNet代替了MLP层。经过第 N 个CADR块的特征可以表示为

(10)

(11)

式中, CA 表示浓缩注意力机制,旨在捕获超像素级的全局依赖关系。该模块主要经过特征聚合、注意力计算和特征恢复3个步骤。具体来说,首先通过卷积层进行特征聚合,之后在通道注意力和空间注意力两个维度上分别使用分组卷积,将通道维度映射为原有的3倍。然后,将切片通道划分为查询( Q )、键( K )和值( V )3部分,经过自注意力计算并通过Softmax函数生成注意力权重。最后,将注意力权重应用于 V ,得到处理后的特征张量。为简化表述,单个 CA 块可表示为

(12)

式中,

为缩放因子,可以根据需要进行调整。在后续的DRnet部分,采用密集残差结构。具体来说,DRNet前后各包含一组PReLU激活函数与3×3的卷积,中间部分含有两个残差块(Resblock),每个残差块由两组PReLU激活函数和3×3的卷积层组成,具体的连接操作如图3所示。通过采用密集化策略,CADR块不仅能够挖掘更多细致的特征,同时也保持了较好的计算速度。

图3

图3 基于浓缩注意力机制与密集残差连接机制的Transformer模块(CADR)

Fig. 3 Transformer module based on condensed attention and dense residual connection (CADR)

1.4 损失函数 在试验中,使用两种不同的损失函数加权来评估重建的高分辨率图像与真实图像之间的差异。其一为 l 1 [21] ,用以保留空间信息,此外为了确保高光谱图像的光谱一致性,在损失函数中引入了空间-光谱总变异(SSTV) [44] 1 损耗中,以实现空间和频谱的平滑

(13)

(14)

式中,

分别为第 n 个重构的高分辨率高光谱图像与原高光谱图像; N 表示一个训练批中图像的个数;Θ表示网络的参数集;

分别表示用于计算

的水平、垂直和光谱梯度的函数。

综上,模型的最终目标损失为这两者的加权和

式中, λ 用于平衡SSTV损失的贡献,在后文的试验中,经过许多学者的试验 [10] ,同样将其设为常数 λ =1×10。在本节选用Chikusei与Houston2013两个高光谱图像数据集进行试验和分析评估。将本文方法与5种方法进行比较,分别为Bicubic、GDRRN [45] 、SSPSR、EUNet [46] 、MSDformer [41] 。尽力调整了这些比较方法的超参数,使它们分别在上述数据集中的性能最佳。试验采用6种广泛使用的评价指标来评价本文方法的性能,包括峰值信噪比(PSNR)、结构相似性(SSIM) [47] 、相互关系(CC) [48] 、均方根误差(RMSE)、光谱角度映射(SA M)和误差相对全局校正(ERGAS)。PSNR和SSIM是评估真实图像和生成图像之间的相似性和结构一致性的重要指标。SAM则通过计算恢复光谱和参考光谱之间的夹角,量化每个像素的光谱一致性。CC和ERGAS是在融合任务中常见的指标,其中CC主要关注图像之间的相关性,而ERGAS综合考虑了不同波段的误差情况。

在本文方法中,默认输入的高光谱图像采取每组8个通道,重叠通道数为2( c =8, o =2),AWCA模块中线性变换层缩放比设为16(reduction=16),网络后半段中CADR块数量为2( N =2),且浓缩注意力中的缩减比例设定为

,注意力头数设为8。在损失函数中,设置 λ =1×10 -3 。对于训练设置,使用默认设置的Adam优化器训练网络200 epoch,mini-batch的大小设置为32。初始学习率设置为1×10 -4 ,在100次后衰减10倍。该模型在NVIDIA RTX 4090 GPU上通过Pytorch库实现,表1给出了网络模型参数。

表1 DRformer网络参数

Tab. 1 Network parameters of the DRformer network

模块

网络架构

输入尺寸

模型参数

输出尺寸

整体结构

MAWSA

H

× W × c

H

× W ×256

Conv-UP

H

× W ×256

3×3, c ,Stride1

sH

/2× sW /2× c

Concatenation

sH

/2× sW /2× c

sH

/2× sW /2× C

UP

sH

/2× sW /2× C

sH

× sW × C

CADR-Conv

sH

× sW × C

1×1,256,Stride1

sH

× sW ×256

Bicubic-Conv

H

× W × C

3×3,256,Stride1

sH

× sW ×256

Conv

sH

× sW ×256

3×3, C ,Stride1

sH

× sW × C

MAWSA

Dconv(1,3,5)-ReLU

H

× W × c

3×3,256,Stride1,dilation(1,3,5)

H

× W ×256

Conv-ReLU-Conv

H

× W ×256

3×3,256,Stride1

H

× W ×256

AWCA

H

× W ×256

reduction=16

H

× W ×256

CADR

Condensed

sH

× sW × C

num_heads=8,d=16

sH

× sW × C

Attention

DRNet

sH

× sW × C

sH

× sW × C

(PReLU-Conv)

3×3,256,Stride1

(Resblock)

3×3,256,Stride1

(PReLU-Conv)

3×3, C ,Stride1

新窗口打开| 下载CSV

2.2 Chikusei数据集试验结果与分析

Chikusei数据集是由Headwall Hyperspec VNIR-C成像传感器于2014年7月29日在日本茨城县Chikusei的农业和城市地区拍摄。它包含2517×2335像素,光谱范围为363~1018 nm,128个波段,地面采样距离为2.5 m。由于缺失边缘区域的信息,将原始场景的2304×2048×128进行信息中心区域的裁剪。

具体来说,将图像的顶部区域裁剪成4张大小为512×512×128的无重叠高光谱图像作为测试集。图像的其余区域被裁剪为有重叠的图像块进行训练(随机抽取10%的训练数据作为验证集)。当比例因子为×4时,采用32像素的重叠提取大小为64×64×128的图像块。当比例因子为×8时,采用64像素的重叠提取大小为128×128×128的图像块。这些图像块作为原始高光谱图像的参考,并根据相应的比例因子,通过双三次降采样生成低分辨率的高光谱图像,作为输入图像。

表2为在Chikusei测试集上,将本文方法与现有的方法进行比较的结果。用6个客观定量指标的平均值来衡量这些方法在比例因子×4和×8上的性能,粗体表示最佳结果,下划线表示次佳结果。GDRRN [45] 采用分组策略设计递归网络,减少了频谱失真。SSPSR [10] 和MSDformer [41] 均采用设计的分组策略。EUNet [46] 是一个基于先验驱动的MAP框架的可解释多阶段网络,它可以涵盖基于深度学习的超分辨率设计并明确地在搜索高质量解时施加退化模型约束。由表2可知,在比例因子×4和×8上,本文方法在大部分指标上取得了更好的结果,不仅可以获得良好的空间性能,而且也可以获得优异的光谱重建性能。具体表现在比例因子为×4时,本文方法比次优方法的PSNR高出约0.5 dB;在比例因子为×8时,本文方法比次优方法的PSNR高出约0.7 dB。

表2 Chikusei数据集的试验结果

Tab. 2 The test results of Chikusei dataset

比例因子

方法

PSNR

SSIM

CC

RMSE

ERGAS

SAM

×4

Bicubic

37.637 7

0.895 3

0.921 2

0.015 6

6.756 3

3.403 9

GDRRN

37.721 8

0.897 0

0.922 3

0.015 4

6.697 0

3.321 5

SSPSR

39.505 5 0.932 8 0.947 5 0.012 6 5.473 7 2.719 0

EUNet

38.867 0

0.926 0

0.939 7

0.013 4

5.931 8

2.751 7

MSDformer

39.067 1

0.924 5

0.942 3

0.013 2

5.714 1

2.864 4

本文方法

40.085 1 0.933 4 0.943 3 0.012 4 5.224 1 2.697 1

×8

Bicubic

34.504 8

0.806 8

0.831 3

0.022 3

9.697 5

5.043 5

GDRRN

34.556 4

0.807 3

0.832 7

0.022 2

9.646 9

4.991 5

SSPSR

34.938 0

0 .822 9

0.848 5

0.021 0

9.318 6

4.863 2

EUNet

35.115 6 0.833 4 0.853 8 0.020 7 9.073 7 4.502 8

MSDformer

34.790 2

0.816 2

0.842 2

0.021 5

9.433 1

4.823 0

本文方法

35.913 8

0.822 3

0.810 6

0.020 6 8.594 5 4.478 9

注:粗体表示最佳结果,下划线表示次佳结果。

新窗口打开| 下载CSV

如图4所示,在比例因子为×4的条件下,对Chikusei数据集中的一幅测试高光谱图像采用了不同的对比方法进行了超分辨率重建(选择第70、100和36波段作为R-G-B通道,以便更好地可视化)。图4中第3行绘制了误差图,直观地显示了测试集中图像超分辨率重建后的精度。由图4可知,早期的方法GDRRN和Bicubic在重建后的图像整体效果与真实图像存在较大差距。近年来提出的一些方法虽能产生相对良好的视觉重建效果,但本文方法在细粒度纹理和边缘细节的恢复上显著优于其他方法(参见红框标记的区域)。此外,由误差图可以看出,本文方法在边缘细节上误差最少,整体重建误差也较低。为了进一步验证本文方法恢复光谱信息的精度,图5展示了,在比例因子×4条件下,从Chikusei数据集测试集上绘制的平均光谱差曲线,本文方法的曲线始终保持在最低位置,所有光谱波段的误差最小。

图4

图4 Chikusei数据集重建的复合图像

Fig. 4 The reconstructed composite image the Chikusei dataset

图5

图5 Chikusei数据集的平均光谱差曲线

Fig. 5 Average spectral difference curve derived from the Chikusei dataset

2.3 Houston2013数据集试验结果与分析

Houston2013数据集由2013年IEEE GRSS数据融合大赛所提供,利用ITRES CASI 1500光谱成像仪在美国得克萨斯州休斯敦大学校园及其周边城区拍摄。在364~1046 nm的光谱范围内,包含144个波段的349×1905像素。将图像的顶部区域裁剪成4张大小为168×168×144像素的无重叠高光谱图像作为测试集。与Chikusei数据集的设置类似,对图像的其余区域进行裁剪,在不同比例因子条件下形成具有不同重叠大小的图像块训练集(随机选择10%的训练数据作为验证集)。

表3列出了所有方法在4个测试图像中6个评标指标的平均性能。由表3可知,本文方法在比例因子为×4时所有客观评价指标上都明显优于其他方法,在比例因子为×8时,ERGAS指标略低于EUNet与MSDformer,SAM指标略低于EUNet。这表明本文方法具有优秀的性能与稳健性,尤其在空间恢复上,同时对大部分数据集有适用性。

表3 Houston2013数据集上的试验结果

Tab. 3 The test results of the Houston2013 dataset

方法

比例因子

PSNR

SSIM

CC

RMSE

ERGAS

SAM

Bicubic

×4

33.698 4

0.801 6

0.901 4

0.025 6

6.157 1

6.459 2

GDRRN

×4

33.798 3

0.806 7

0.903 2

0.025 3

6.084 1

6.342 1

SSPSR

×4

34.207 3

0.831 4

0.910 1

0.023 9

5.748 1

5.494 4

EUNet

×4

34.264 0 0.834 3 0.911 4 0.023 7 5.698 1 5.479 8

MSDformer

×4

34.077 1

0.828 8

0.908 8

0.024 2

5.849 8

5.894 3

本文方法

×4

34.477 7 0.840 1 0.915 5 0.023 1 5.567 0 5.355 8

Bicubic

×8

31.120 9

0.673 0

0.816 3

0.034 7

8.339 1

9.365 7

GDRRN

×8

31.097 6

0.674 2

0.814 0

0.034 5

8.320 1

9.368 8

SSPSR

×8

31.221 5

0.684 1

0.820 7

0.033 9

8.174 1

8.895 9

EUNet

×8

31.349 1

0.687 7

0.824 1

0.033 5 8.055 6 8.634 9

MSDformer

×8

31.305 1 0.688 2 0.823 0

0.033 6

8.108 1

9.079 3

本文方法

×8

31.350 2 0.690 4 0.824 2 0.033 5

8.120 1

8.787 1

新窗口打开| 下载CSV

如图6所示,在Houston2013测试集中选择一幅高光谱重构图像在比例因子×4时进行了可视化展示(将其第29、26、20波段作为R-G-B通道以便展示),并制作了其误差图。Bicubic方法和早期的GDRRN方法重建的图像整体较为模糊,与真实图像存在较大差异。MSDformer存在边界不清晰的问题,SSPSR和EUNet能够产生相当的视觉重建效果,但在恢复细节方面仍存在不足。通过误差图可以看出,本文提出的DRformer方法在重建后的精度误差较小,略优于其他方法。图7展示了在比例因子×4条件下,Houston数据测试集平均光谱差曲线。可以明显看到,本文方法的曲线在大多数波段上保持在最低位置,特别是在70~110波段之间的差距较为明显,提供了最小的光谱误差,而其他方法则存在一定程度的光谱失真。

图6

图6 Houston2013数据集的复合图像

Fig. 6 The reconstructed composite image of Houston2013 dataset

图7

图7 Houston2013数据集的平均光谱差曲线

Fig. 7 Average spectral difference curve derived from the Houston2013 dataset

2.4 模型参数与运行时间分析

本节将探讨模型复杂度与运行时间分析对模型实用性的影响,并给出效率-性能的平衡性讨论。表4列出了本文与不同方法运行的参数量大小以及在Houston2013数据集(比例因子为4)条件下的运行时间(训练时间与测试时间之和)。

表4 模型复杂度与运行时间

Tab. 4 Model complexity and running time

模型

参数量/MB

时间/s

GDRRN

0.479 2

304

SSPSR

13.674 8

1828

EUNet

2.796 7

867

MSDformer

9.121 5

1535

DRformer

12.988 2

4101

新窗口打开| 下载CSV

GDRRN方法的所需参数与时间最少但是其性能效果较差见表4。EUNet是一个轻量级的网络,在参数较少时能取得不错的效果,适用于计算资源有限的场景,如卫星和机载平台。SSPSR与MSDformer参数量与本文方法接近,训练收敛较快,但是方法效果有限。本文方法在处理时间上没有优势,但该耗时可以换来数据处理精度的大幅提高。训练耗时长的主要原因是由于本模型复杂性较高,且训练的epoch次数较多后才开始收敛,导致了较长的运行时间,后期可以采用早停策略和尝试不同学习率加快模型的收敛速度,来提高计算效率和缩减运行时间。

2.5 消融试验分析

在本节中,将讨论不同模块选取对模型超分辨率性能的影响与所提出的CADR块数量对模型的影响。本文方法包括分组策略、多尺度自适应加权光谱关注模块(MAWSA)、CADR模块和采用DRNet代替MLP层4个主要部分。为了验证这些组件的有效性,修改了模型并比较了它们的变体。所有的变体都在比例因子×4的Houston数据集上进行训练。表5列出了4种变体的定量评价结果,图8展示了4种变体在测试集上的重建图像。表6讨论了CADR块数量对模型的影响。

表5 消融试验结果

Tab. 5 Ablation experiment results

变体

参数量/MB

PSNR

SSIM

CC

RMSE

ERGAS

SAM

本文方法

12.988 2

34.477 7 0.840 1 0.915 5 0.023 1 5.567 0 5.355 8

变体1

14.241 6

34.229 5

0.830 7

0.910 9

0.023 7

5.728 5

5.654 3

变体2

12.988 2

33.968 1

0.827 6

0.907 1

0.024 1

5.883 1

6.114 6

变体3

9.095 6

34.181 7

0.828 9

0.910 4

0.023 9

5.760 4

5.558 5

变体4

5.689 8

34.112 1

0.827 5

0.909 2

0.024 1

5.818 8

5.985 3

新窗口打开| 下载CSV

图8

图8 各变体的超分辨率重建结果

Fig. 8 Super-resolution reconstruction results of various variants

表6 CADR块数消融试验

Tab. 6 Ablation experiment on the number of CADR blocks

CADR块数

PSNR

SSIM

CC

RMSE

ERGAS

SAM

N

=1

34.116 3

0.828 1

0.909 2

0.024 1

6.157 1

6.023 3

N

=2

34.477 7 0.840 1 0.915 5 0.023 1 5.567 0 5.355 8 N

=3

34.456 1

0.838 6

0.915 4

0.023 3

5.570 8

5.455 4

新窗口打开| 下载CSV

变体1为了展示分组策略的有效性,将取消网络前半段中的分组策略,改为直接将不分组的图像输入MAWSA模块中。变体2为了验证MAWSA模块的有效性,将采用文献[10]中的SSB模块来代替原方法中的MAWSA模块进行试验。变体3为了验证CADR模块在全局特征提取时的有效性,将原方法中CADR部分更改为进行二次上采样后使用式(8)与式(9)中提到的空间注意力机制与AWSA模块。变体4为验证采用DRNet来代替了MLP层的有效性,在CADR块中采用传统的MLP代替DRNet。

由表5可知,变体1由于未采用分组策略,导致模型所需的参数量增加,并且定量评价指标结果下降。变体2使用SSB模块替代MAWSA模块,无法选择性地强调光谱信息特征,在SAM指标上显著下降。变体3在未使用CADR模块进行长距离信息提取时,参数量下降,但是定量评价指标也下降严重。变体4的结果凸显了采用残差类型网络代替MLP层来处理高光谱图像的有效性。

由图8可知,在变体2中部分区域存在伪影和光谱色彩失真的问题,在引入了MAWSA模块后,建筑物等地物轮廓都重建出真实的线条轮廓。变体3存在细节模糊的问题,验证本文提出的CADR模块对于地物细节不足的问题有了较大改善。变体4中的细节出现了条带状斑块,说明DRNet增强了网络对复杂光谱特征的学习能力,在处理深层次和细粒度特征时表现更加优越。变体1与本文方法在视觉表现上相当,但需要更多的参数才能实现相同的效果。

在网络的全局特征提取部分,采用了多个连续的CADR块,因此研究了CADR块数量对网络模型的影响,以便选取合适的块数。试验结果见表5,当仅采用一个CADR块时( N =1),所有的评价指标结果都较差。随着CADR块数量增加到两块( N =2),评价指标均上升。当进一步增加块数时,超分辨率的性能开始逐渐下降,这可能由于模型训练中出现了过拟合所导致。

3 总结与展望

本文提出了一种耦合CNN结构与Transformer架构的超分辨率重建网络DRformer,解决高光谱图像超分辨率任务中局部特征与全局特征难以兼顾的问题。与现有的GDRRN、SSPSR、EUNet和MSDformer等方法相比,本文方法在Chikusei和Houston2013数据集上表现出显著优势,通过MAWSA和基于浓缩注意力机制的CADR模块,本文方法能够有效提取多尺度局部特征并增强全局光谱依赖关系,从而在超分辨率任务中达到了更高的精度水平。

但本文方法仍存在一些局限性:首先,其对极端尺度(如×16或更高)的数据的敏感性较高,在大尺度超分任务中还需要进一步优化;然后,跨传感器泛化能力缺乏对应契合的数据集,其泛化能力需要进一步验证;最后,由于模型复杂度较高,DRformer的训练和推理时间较长。未来的研究可以通过引入更轻量的网络结构来减少参数量并优化计算效率,使用更有效特征融合机制来增强模型在大尺度超分任务中的表现,同时尝试构建大规模高质量真实成对数据集以促进本领域的进一步发展。

初审:张艳玲

复审:余易举

终审:宋启凡

资讯

来源:随性自由的水滴一点号

相关推荐