新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

摘要：计算机视觉的自监督学习取得了巨大的进步，并改进了许多下游视觉任务，例如图像分类、语义分割和对象检测。其中，生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而，它们的全局掩码重建机制在计算上要求很高。

从此不迷路

计算机视觉研究院

论文地址：

计算机视觉研究院专栏

计算机视觉的自监督学习取得了巨大的进步，并改进了许多下游视觉任务，例如图像分类、语义分割和对象检测。

01 概要简介

计算机视觉的自监督学习取得了巨大的进步，并改进了许多下游视觉任务，例如图像分类、语义分割和对象检测。其中，生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而，它们的全局掩码重建机制在计算上要求很高。

为了解决这个问题，研究者提出了局部掩码重建(LoMaR)，这是一种简单而有效的方法，它在简单的Transformer编码器上的7×7补丁的小窗口内执行掩码重建，与全局相比，提高了效率和准确性之间的权衡对整个图像进行掩码重建。

大量实验表明，LoMaR在ImageNet-1K分类上的top-1准确率达到84.1%，优于MAE 0.5%。在384×384图像上对预训练的LoMaR进行微调后，top-1准确率可以达到85.4%，超过MAE 0.6%。在MS COCO上，LoMaR在目标检测方面比MAE高0.5 APbox，在实例分割方面比MAE高0.5 APmask。LoMaR在预训练高分辨率图像上的计算效率尤其高，例如，它比MAE快3.1倍，在预训练448×448图像上的分类精度提高0.2%。这种局部掩码重建学习机制可以很容易地集成到任何其他生成式自监督学习方法中。代码将公开

02 研究背景

在Transformer模型中，全局自注意力机制关注所有n个图像块，产生O(n2)时间复杂度。但是在重建中关注遥远的补丁的好处仍不清楚。在下图中，我们可视化了重建遮挡图像块（以黑色显示）时的注意力权重。

从预训练的MAELarge模型中，我们从解码器层2、4、6和8中提取注意力权重，并使用白色表示高度注意力。该模型主要关注接近目标的补丁，这促使我们限制重建中使用的注意力范围。

因此，研究者提出了一种新模型，称为局部掩码重建或LoMaR。该模型将注意力区域限制在一个小窗口，例如7×7图像块，这足以进行重建。类似的方法在许多NLP领域中已经出现，适用于那些需要对长序列进行操作的人。小窗口也已在视觉领域进行了探索，以提高训练和推理速度。但与以前的transformers不同，例如Swin Transformer，它为每个图像创建具有固定坐标的移动窗口。相反，研究者对几个具有随机位置的窗口进行采样，这样可以更好地捕捉不同空间区域中的对象。

在上图中，我们比较了LoMaR和MAE并注意到两个主要区别：

a）使用k×k个补丁对一个区域进行采样，以执行掩码重建，而不是从全部数量的补丁中进行。我们发现仅用一些局部视觉线索来恢复丢失的信息就足够了，而不是从全局位于图像中的25%可见块中重建掩码块

b) 用轻量级MLP头替换MAE中的重量级解码器。将所有图像补丁直接输入编码器，包括掩码和可见补丁。相比之下，在MAE中，只有可见的补丁被馈送到编码器。

实验表明，这些架构变化为小窗口中的局部掩码重建带来了更多的性能提升。

03 新框架分析

LoMaR依赖于一堆Transformer块，通过从类似于MAE的损坏图像中恢复丢失的补丁来预训练大量未标记的图像，但LoMaR在几个关键地方与MAE不同。下图并排比较了两者。

接下来我们首先重新审视MAE模型，然后描述LoMaR和MAE之间的区别。

Background: Masked Autoencoder

掩码自动编码器(MAE)模型，如上图左侧所示，采用非对称编码器-解码器架构。编码器从图像中获取补丁子集并输出补丁的潜在表示。根据这些，解码器重建丢失的补丁。对于分辨率为h×w的输入图像，MAE首先将其划分为一系列不重叠的块。然后，MAE随机屏蔽掉大部分（例如75%）的图像块。位置编码被添加到每个补丁中以指示它们的空间位置。MAE首先将剩余的补丁编码到潜在表示空间中，然后将潜在表示与掩码补丁的占位符一起输入解码器，解码器执行重建。对于每个重建图像，MAE使用像素空间中原始图像的均方误差(MSE)作为损失函数。

Local Masked Reconstruction (LoMaR)

局部与全局掩码重建。MAE使用从整个图像中采样的补丁重建每个丢失的补丁。然而，如下图所示。

通常只有目标补丁附近的补丁对重建有显着贡献，这表明局部信息足以进行重建。因此，对小区域内的补丁执行掩码和重建。实验发现，7×7块的区域大小可以在准确性和效率之间取得最佳平衡。另一方面，与卷积网络类似，由于每次迭代使用在随机空间位置采样的小窗口，LoMaR具有平移不变性。

Implementation

给定一个图像，首先将它分成几个不重叠的块。每个补丁被线性投影到嵌入中。在不同的空间位置随机采样了几个K×K块的方形窗口。然后将每个窗口内固定百分比的补丁归零。之后，以光栅顺序将每个窗口中的所有补丁（包括可见补丁和遮挡补丁）提供给编码器。编码器在自注意力层中应用可学习的相对位置编码。使用简单的MLP头将来自编码器voutput的潜在表示转换回其原始特征维度，然后使用归一化的真实图像计算均方误差。

04 实验及可视化

Image classification results on the ImageNet-1K