CVPR 2025 即插即用卷积-自适应矩形卷积!

360影视 欧美动漫 2025-04-12 07:08 1

摘要:传统的卷积操作中,卷积核的形状是固定的(通常是正方形),而 ARConv 能够自适应地学习卷积核的高度和宽度,使其能够根据图像中不同物体的大小动态调整卷积核的形状。这种灵活性使得卷积操作能够更好地适应遥感图像中物体的多样性和尺度变化。ARNet 是基于 U-N

本文约2000字,建议阅读5分钟

本文提出了一种名为 Adaptive Rectangular Convolution (ARConv) 的创新卷积模块。

论文题目:

Adaptive Rectangular Convolution for Remote Sensing Pansharpening

论文地址:

代码地址:

传统的卷积操作中,卷积核的形状是固定的(通常是正方形),而 ARConv 能够自适应地学习卷积核的高度和宽度,使其能够根据图像中不同物体的大小动态调整卷积核的形状。这种灵活性使得卷积操作能够更好地适应遥感图像中物体的多样性和尺度变化。ARNet 是基于 U-Net 架构设计的,将标准卷积层替换为 ARConv 模块。这种设计充分利用了 U-Net 在图像分割任务中的优势,同时通过 ARConv 的动态调整能力,使得网络能够更有效地处理遥感图像的多尺度特征。作者在多个数据集(包括 WorldView3、QuickBird 和 GaoFen-2)上进行了广泛的实验,验证了 ARConv 和 ARNet 的有效性。实验结果表明,ARNet 在多个指标上均优于现有的传统方法和基于深度学习的方法。

本文提出了一种名为 Adaptive Rectangular Convolution (ARConv) 的创新卷积模块,并基于该模块构建了一个用于遥感图像融合(Pansharpening)的网络架构 ARNet。ARConv 的设计旨在克服传统卷积操作在遥感图像特征提取中的局限性。遥感图像中物体大小差异显著,而标准卷积的采样位置固定在正方形窗口内,且采样点数量预先设定,难以适应不同尺度的物体特征提取。为此,ARConv 通过动态学习卷积核的高度和宽度,并根据学习到的尺度动态调整采样点数量,从而能够有效捕获图像中各种尺度物体的特征。

本图是本文的核心示意图,展示了基于深度学习的遥感图像融合(pansharpening)流程以及提出的自适应矩形卷积(Adaptive Rectangular Convolution,简称 ARConv)模块的工作原理。图的顶部展示了遥感图像融合的整体流程。在遥感领域,通常能够获取两种类型的图像:低分辨率多光谱图像(LRMS)和高分辨率全色图像(PAN)。LRMS 图像包含丰富的光谱信息,但空间分辨率较低;而 PAN 图像虽然空间细节丰富,但仅是灰度图像,缺乏光谱信息。图像融合的目标就是将这两种图像结合起来,生成高分辨率多光谱图像(HRMS)。图中用箭头表示了从 LRMS 和 PAN 图像到 HRMS 图像的转换过程,强调了融合任务的重要性,即通过融合这两种图像的优势来提升图像的整体质量和可用性。

本图通过四个子图(a、b、c 和 d)直观地展示了四种不同类型卷积核的工作原理,对比了标准卷积、可变形卷积、多尺度卷积以及本文提出的自适应矩形卷积(ARConv)之间的区别和优势。图(a)展示了标准卷积(Standard Convolution)的结构。标准卷积使用固定形状和大小的卷积核(通常是正方形),在图像上滑动并提取特征。其采样位置是固定的,无法根据图像内容进行调整,这限制了其在处理不同尺度和形状目标时的灵活性。图(b)展示了可变形卷积(Deformable Convolution)。这种卷积通过学习偏移量来调整每个采样点的位置,从而能够适应不同形状的目标。图(c)展示了多尺度卷积(Multi-scale Convolution)。这种卷积通过使用不同大小的卷积核来提取不同尺度的特征,但其卷积核的大小是预设的,无法根据图像内容动态调整。这可能导致在不同尺度特征融合时不够精确,影响模型的整体性能。图(d)展示了本文提出的自适应矩形卷积(ARConv)。ARConv 不仅能够自适应调整采样位置,还能根据学习到的卷积核高度和宽度动态调整采样点的数量。

本图是本文的核心架构图,详细展示了自适应矩形卷积(Adaptive Rectangular Convolution,简称 ARConv)模块的整体设计和工作流程。该图通过四个主要部分,清晰地说明了 ARConv 如何通过自适应学习卷积核的高度和宽度、动态调整采样点数量,并最终实现高效的特征提取。通过清晰的流程图展示了 ARConv 的工作原理,从输入特征图到最终的输出特征图,每一步都体现了 ARConv 在自适应性和灵活性方面的优势。通过动态调整卷积核的高度、宽度和采样点数量,ARConv 能够更好地适应遥感图像中不同大小和形状的目标,从而实现更高效的特征提取和更优的图像融合效果。

本表格提供了在 WorldView-3(WV3)数据集上对多种图像融合(pansharpening)方法的性能评估结果。该表通过一系列量化指标,全面比较了不同方法在处理低分辨率和全分辨率图像时的表现。表中列出了一系列图像融合方法,包括传统方法(如 EXP、MTF-GLP-FS、TV 等)、基于深度学习的方法(如 PNN、PanNet、DiCNN 等),以及本文提出的 ARConv 方法。这些方法在 WV3 数据集上的性能通过多个评估指标进行衡量。对于低分辨率数据集,使用了 SAM(光谱角距离)、ERGAS(相对均方根误差)和 Q8(基于小波变换的相似性度量)三个指标;对于全分辨率数据集,使用了 Dλ(光谱失真)、Ds(空间失真)和 HQNR(高质量噪声比)三个指标。这些指标分别从光谱信息保留、空间细节保留以及整体图像质量等方面对融合结果进行评估。总之,通过详细的量化指标对比,清晰地展示了 ARConv 方法在图像融合任务中的优越性。它不仅在多个性能指标上超越了现有的传统方法和基于深度学习的方法,还证明了其在处理不同分辨率图像时的稳定性和有效性。这为遥感图像融合领域提供了一种新的、高效的技术解决方案。

来源:数据派THU一点号

相关推荐