中国测绘科学研究院燕琴院长：智能遥感大模型研究进展与发展方向

摘要：AI大模型以其泛化性、通用性、高精度等优势，成为计算机视觉、自然语言处理等AI应用的基石，本文在分析AI大模型发展历程、价值、挑战的基础上，首先从数据、模型、下游任务3个层面阐述了其研究进展，数据层面从单模态向多模态发展，模型层面从小模型向大模型发展，下游任务

本文内容来源于《测绘学报》2024年第10期（审图号GS京（2024）2165号）。

智能遥感大模型研究进展与发展方向

燕琴1,2, 顾海燕1,2, 杨懿1,2, 李海涛1,2, 沈恒通1,2, 刘世琦1,2

1.中国测绘科学研究院，北京 100830

摘要

AI大模型以其泛化性、通用性、高精度等优势，成为计算机视觉、自然语言处理等AI应用的基石，本文在分析AI大模型发展历程、价值、挑战的基础上，首先从数据、模型、下游任务3个层面阐述了其研究进展，数据层面从单模态向多模态发展，模型层面从小模型向大模型发展，下游任务层面从单任务向多任务发展；其次，探讨了遥感大模型3个重点发展方向，即多模态遥感大模型、可解释遥感大模型、人类反馈强化学习；再次，实现了“无标签数据集构建-自监督模型学习-下游迁移应用”遥感大模型构建思路，初步开展了技术试验，验证了遥感大模型的显著优势；最后，进行了总结与展望，呼吁以应用任务为导向，将理论方法、工程技术、应用迭代进行结合，实现遥感大模型的低成本训练、高效快速推理、轻量化部署及工程化落地应用。

关键词

燕琴（1968—），女，博士，研究员，研究方向为自然资源调查监测、国土空间规划与用途管制、航空航天遥感测图等。E-mail：

通讯作者:杨懿 E-mail：yangyi@casm.ac.cn

本文引用格式

燕琴, 顾海燕, 杨懿, 李海涛, 沈恒通, 刘世琦.

YAN Qin, GU Haiyan, YANG Yi, LI Haitao, SHEN Hengtong, LIU Shiqi.

阅读全文

AI大模型(也称“基础模型”)是人工智能预训练大模型的简称，其主要采用卷积神经网络、循环神经网络、自注意力机制、Transformer等架构，在海量数据上进行训练，能适应多种下游任务，具有很好的泛化性、通用性和实用性，是计算机视觉、自然语言处理等各类AI应用的基石[1-2]。

AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段。1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5[3]诞生。此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力。第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段。2013年，自然语言处理模型Word2Vec[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer[5]，奠定了大模型预训练算法架构的基础。在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足。第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段。2020年，OpenAI公司推出了GPT-3[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini[8]，具备多模态理解、逻辑推理等能力。此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用。

图1

图1 AI模型发展历程

Fig.1 The development history of AI models

AI大模型具有以下价值：①高泛化通用性。大模型由多个专家模型集成，通过学习大量数据和任务获得广泛知识，捕捉更多细节，具有解决多种下游任务的能力，并且可以更好地泛化到新的数据集中。②高精度。具有更多参数和更深层次结构，能对复杂的模式和规律进行准确建模，并通过不断学习和更新参数提高性能和准确度。③降低门槛。大模型可以自动学习更多特征和规律，减少手动特征工程的需求，使开发者能更轻松地构建高质量模型，节省了大量的训练时间和计算资源，并且用户可以通过唯一接口轻松调用各项功能，执行各项下游任务[9-11]。

遥感大模型是利用卷积神经网络、循环神经网络、自注意力机制、Transformer等先进的深度学习结构，通过对大规模遥感数据进行训练，实现对地物分类、目标检测、语义分割、变化检测等任务的高效处理[12-13]。国内外遥感领域的商业公司、高校及科研院所陆续推出遥感大模型平台，在一定程度上能满足城市规划、耕地保护、灾害监测等实际应用需求。部分国内外遥感大模型平台见表1。

表1国内外遥感大模型平台

Tab.1

名称机构技术特点GeoForgeAgeospatial基于大语言模型(GeoLLMs)开发的地理空间分析平台，可以实现空间数据处理和遥感数据智能分析ArcGIS proESRI提供了大量遥感AI算法和在大规模数据上训练的预训练模型，可以完成要素提取、变化检测和时间序列分析等业务Segment-geospatialUniversityTennessee基于视觉大模型Segment Anything开发的工具库，可以简化用户利用SAM进行遥感影像分割和地理空间数据分析的过程AI Earth阿里达摩院遥感AI算法工具累计达16类，公开数据集规模达70余类SkySense武汉大学、蚂蚁集团10亿参数量的多模态遥感基础模型，从单模态到多模态、静态到时序、分类到定位，灵活适应各种下游任务，具有显著泛化能力空天·灵眸空天院、华为训练数据集包含了200多万幅遥感影像，数据集中包含了1亿多具有任意角度分布的目标实例天权大模型航天宏图立足开源大模型基础结构，融合PIE-Engine AI 43类语义分割及变化检测模型，适配10余类重点目标检测识别业务SenseEarth 3.0商汤科技具有3.5亿规模的遥感大模型，涵盖25个语义分割模型，其中地物分割能力在百万级图斑验证集上的平均精度超过80%长城大模型数慧时空综合自然资源领域文本、图像、视频等多种模态的数据，通过学习能够有效对自然资源业务进行理解和生成星图地球智脑中科星图提供地球数据智能处理能力、地球信息智能感知能力、地球场景智能重建能力等珞珈灵感武汉大学遥感智能解译训推一体平台，13亿参数多模态大模型，集成了场景分类、目标检测、变化检测等典型下游任务模型库

由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战。①高质量样本体量很小。如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本。②语言、视觉大模型在遥感领域应用研究比较缺乏。如常用的Image GPT[14]、BERT[15]、SAM[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型。③模型迭代优化技术亟待突破。由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力。④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能。⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力[17-18]。

对于遥感大模型的研究进展及面临的挑战，武汉大学张良培教授团队以遥感大模型的预训练技术为主线，归纳分析了有监督单模态、无监督单模态、视觉-文本联合多模态预训练遥感大模型的研究进展，探讨了结合遥感领域知识与物理约束、提高数据泛化性、扩展应用场景、降低数据成本4个方面的展望[12]。本文从数据、模型、下游任务3个方面阐述其研究进展，探讨多模态、可解释、人类反馈强化学习3个重要研究方向，并开展自监督单模态遥感大模型初步试验，旨在推动遥感大模型的研究应用实践，赋能遥感智能化发展。

1 研究进展

AI经历了从小数据到大数据、从小模型到大模型、从专用到通用的发展历程。从AI发展历程来看，AI遥感大模型走向规模化应用需要高质量的样本数据、泛化的模型结构和高精度的下游迁移，数据层面从单模态向多模态发展，模型层面从小模型向大模型发展，下游任务层面从单任务向多任务发展。

1.1 数据：从单模态向多模态发展

多模态数据相比单模态数据更符合人类感知与认知，更有助于场景理解。如影像提供了视觉信息，是多模态模型的基础，文本是语义理解的关键，音频能够处理声音信息和语音识别任务，视频可用于动作识别、行为分析等任务，温度信息可用于构建环境感知模型等。因此，多模态数据支撑的大模型更具有多模态理解、高效交互、空间感知、逻辑推理等优势，可迁移到图像分类、语义分割、场景描述、图像问答等多类下游任务。其中，实现多模态任务的关键是构建具有充足样本量的多模态数据集，表2总结了有关研究提出的高质量的多模态数据集。

表2多模态数据集

Tab.2

数据集名称发布年份数据类型数据量描述MillionAID[19]2021Google Earth影像百万张实例一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势Satlas[20]2022中分辨率Sentinel-2影像、高分辨率NAIP影像2.9亿个标签覆盖场景广、数据规模大RSICap[21]2023遥感图像、文本描述数据2585个高质量字幕用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)RSIEval[22]2023人工注释的字幕-视觉问答31.8万个图像指令对图像-问答三元组，可以全面评估VLMs在遥感环境下的性能SpaceNet[23]2018WorldView-2/3等光学影像1500万张影像全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务SkyScript[24]2023遥感图像-文本描述数据260万张图像文本对一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性fMoW[25]2018多种传感器的时间序列影像、多光谱影像70万张影像一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用SkySense[26]2024高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像2150万个训练样本涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据BigEarthNet-MM[27]2021Sentinel SAR和多光谱数据59万个多模态样本支持多模态多标签遥感图像检索和分类研究SEN12MS[28]2019Sentinel-1/2，MODIS传感器的SAR和多光谱数据18万个多模态样本由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战RingMo[29]2023Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像200万张影像数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充。数据快速扩充方式(图2)有：①数据增强。通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注。利用SAM、segment-anything-eo[30]、SAMRS[31]、RSPrompter[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本。利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据。

图2

图2 数据扩充方式

Fig.2 Data augmentation methods

1.2 模型：从小模型向大模型发展

AI模型从“标注数据监督学习”的特定任务小模型，发展到“无标注数据预训练+标注数据微调”的预训练模型，再到“大规模无标注数据预训练+指令微调+人类对齐”的大模型，其中，自监督学习是预训练大模型的核心技术。

自监督学习是通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息。主流方法分为预测、对比学习两大类。预测的自监督学习主要是通过预测重建数据从而使模型学习到数据中的深层特征，BERT通过“完形填空”的方式训练大型语言模型；GPT通过预测给定的一系列字符后续可能出现的字符，来学习字符之间的语义关联信息；MAE[33]通过预测重建随机掩码后的图片块抽取特征训练视觉模型。对比的自监督学习方法是通过对比学习不同数据视角之间的一致性或差异性，进而学习到数据中的特征表达，BYOL[34]首次舍弃了负样本，在主流对比学习框架中加入了预测层训练模型；Moco V3[35]使用动量编码器训练ViT(vision transformer)模型，在ImageNet上达到了81.0%的Top-1准确率；DINO[36]加入中心聚集层增加模型稳定性，从网络中“蒸馏”知识以训练视觉模型。

遥感领域主要利用3种方式构建遥感大模型(图3)：①微调现有开源视觉大模型。通过微调、提示学习、特征融合等方法，将已有大模型迁移到遥感领域。②构建预训练大模型。使用无标签海量遥感数据，构建大型无标签数据集，利用自监督学习方法构建遥感大模型，通过微调技术使其适配多种业务场景。③构建多模态遥感大模型。将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合，充分利用多种数据知识，使模型真正理解遥感[37-39]。

图3

图3 遥感大模型构建方式

Fig.3 Construction methods of remote sensing large models

在目前典型遥感大模型[40-53](表3)中，紫东太初为全球首个千亿参数多模态大模型，突破跨模态多任务自监督学习技术，实现多模态数据的统一表示与相互生成，形成了完整的智能表示、推理和生成能力。RemoteCLIP[40]是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义视觉特征以及对齐的文本嵌入，以实现无缝的下游应用。SkySense是一个通用的十亿级遥感基础模型，在2150万个时间序列的多模态遥感图像数据集上进行预训练，在涵盖7个遥感任务的16个数据集上展示了卓越的泛化能力，性能大幅领先于其他模型。SkyScript[24]是大规模遥感视觉语言数据集，包括260万个遥感图像-文本对，覆盖2.9万个不同的语义标签，可以助力VLM在遥感中的各种多模态任务发展。

表3典型遥感大模型

Tab.3

遥感视觉大模型RS-BYOL[41]、SeCo[42]、SatMAE[43]、RingMo、RVSA[44]、RSP[45]、Scale-MAE[46]、SpectralGPT[11]、DINO-MC[47]等使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用遥感生成大模型DiffusionSat[48]等使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务遥感多模态大模型视觉+语言紫东太初、MCRN[49]、RemoteCLIP[40]、GeoChat等将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高视觉+位置CSP[50]、GeoCLIP[51]、SatCLIP[52]等可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示视觉+音频SoundingEarth[53]等同时利用视觉和听觉理解应用场景1.3 下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调。利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源。②设置适配层。通过微调更新适配层的网络参数实现不同任务之间的参数共享。③特定任务微调。将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求[54-56]。

下游迁移不仅可以完成语义分割、目标检测、变化检测、场景分类等单任务，还可以完成时序作物识别、多模态场景分类、场景描述、视觉问答、视觉对话、视觉定位等多任务。如SkySense可以灵活组合或单独使用以适应各种任务，从单模态到多模态、静态到时序、分类到定位，都展现了显著的泛化能力；GeoChat在视觉对话、目标查询、目标检测等多任务处理方面表现突出。多任务处理示例如图4所示。

图4

图4 多任务处理示例

Fig.4 Example of multitask processing

2 研究方向

遥感大模型已经在对地观测、自然资源管理、生态环境监测、城市规划等领域产生了重要影响。然而，遥感数据具有高维、大规模、动态变化、地域差异等特点，需要更强大的大模型来处理这些复杂情况，因此，本节重点探讨多模态、可解释、人类反馈强化学习3个重点发展方向。

2.1 多模态遥感大模型

多模态数据不仅包括光学、SAR、LiDAR等遥感数据，还包括文本、音频和视频等不同模态数据，可以弥补单个模态的缺陷，通过自监督/无监督学习方法进行多模态大模型的训练，泛化性显著提升。构建过程主要包括大规模多模态数据获取与清洗、基础模型构建、自监督学习与模型优化训练、下游任务微调。

目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展。面向理解任务的多模态大模型可再分为单流和多流两种结构。单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT[57]、UNITER[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT[59]、CLIP[54]、ALIGN[60]、VATT[61]。面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2[62]、CogView[63])和扩散模型(DDPM[64]、Stable Diffusion[65])等。

图5

图5 多模态遥感大模型

Fig.5 Multimodal remote sensing large model

多模态大模型需要解决的科学问题包括多模态数据对齐、多模态关联建模、跨模态预训练模型特征耦合和解耦等。需要突破的核心技术包括多模态数据语义统一表示、多模态特征融合、联合学习训练、多任务跨模态自监督学习、模态理解与模态生成统一建模、模型参数迁移等[66-70]。

2.2 可解释遥感大模型

可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析。利用显著性映射解释[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析。②知识增强。利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性[73]。③人机协同。强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力[74-76]。

图6

图6 可解释遥感大模型构建方式

Fig.6 Construction methods of interpretable remote sensing large models

现有数据驱动的遥感大模型难以融合领域知识，推理与自学习不足，可解释性不强，缺乏对遥感数据的深层理解与逻辑推理能力，可解释遥感大模型可提高预测结果的信任度，减少偏差，促进模型调优。需要解决知识表示学习、数据-模型-知识耦合机制、人机协同策略、可解释信息转化等科学问题。需要突破大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型构建、知识数据双驱动的决策推理、人在回路反馈优化等[77-78]等核心技术。

2.3 人类反馈强化学习

针对遥感大模型调整优化困难的问题，人类反馈强化学习是一种有效方法，它是一种结合计算机视觉的学习范式，旨在通过人类的反馈来进行强化学习优化模型，此方法将人类专家的知识引入大模型的学习过程中，人类专家可以对模型进行评估与指导，指出预测行为的优劣，并给予相应的奖励或惩罚。该方法可以帮助模型快速收敛到较好的策略，减少试错过程和学习时间，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容，进而能够更有效地完成特定任务[79-84]。

人类反馈强化学习需要解决的科学问题包括模型与人类意图对齐、试错与开发权衡机制、学习奖励函数优化、增强学习优化决策等，需要突破的核心技术包括奖励模型训练、奖励模型精调、强化学习指令微调、人在回路反馈优化等[85-89]。基本思路是：首先，利用大规模数据训练遥感预训练大模型，并迁移至实际应用中的场景分类、地物提取、变化检测等下游任务；然后，在多次应用过程中收集人类专家的偏好标注数据，如专家对遥感影像的地物提取效果的评分，数据收集完成之后，利用这些偏好数据训练奖励模型，确保模型可以准确学习到人类专家的评价和奖励行为；最后，运用强化学习中的近端策略优化方法微调初始的遥感大模型，使遥感大模型与人类的价值观相对齐，整个流程构成人在回路式的模型训练优化过程，有利于遥感大模型充分运用人类专家知识，达到持续学习、持续优化的效果(图7)。

图7

图7 人类反馈强化学习流程

Fig.7 Human feedback reinforcement learning process

3 试验验证

在人工智能、AI大模型发展环境下，面向基础地理信息更新、自然资源调查监测、全球地表覆盖变化等应用需求，本文实现了“无标签数据集构建-自监督模型学习-下游迁移应用”遥感大模型构建思路。首先，在全球范围采样随机点，收集大规模无标签遥感数据，覆盖城市、农田、水域、森林、荒漠等地表覆盖类别；然后，利用自监督学习方法，让模型在没有人工标签的情况下自我学习和理解这些数据的内在结构和模式，形成遥感大模型；最后，进行模型微调，迁移至地类提取、变化检测、目标识别等下游任务。

3.1 大规模无标签数据集构建

根据区域性、时序性、尺度性、多类型数据集采集原则，利用Google Earth Engine在全球范围内设置采样点，采集可见光波段多源遥感数据，包括Sentinel-2、北京1号/2号、高分系列、环境系列卫星数据，此外，收集Google Earth、OpenStreetMap等网络开源数据。

以公开的10 m土地利用覆盖数据为参考，根据语义丰富程度兼顾样本均衡性，城区、农田、湿地、森林、水域数据集比例约为6∶1∶1∶1∶1，同时适量采集荒漠、冰雪、草原、云4类数据集。根据各国人口比例，城区中，欧洲、亚洲、北美洲的采样数量是非洲、大洋洲、南美洲的2倍。由此，在全球范围内采集了约450万组遥感影像，结合公开预训练数据集如TOV_RS等，最终构建了约600万张512×512尺寸影像的大规模遥感自监督预训练数据集，全球样本采集分布如图8所示，部分数据集见https：//github.com/SathShen/PerA。

图8

图8 全球样本采集

Fig.8 Global sample collection

3.2 自监督模型构建

以DINO V2[90]自监督学习网络为基础，该网络使用了教师-学生知识蒸馏框架[91]，利用对比学习方法实现遥感图像中的特征表达。将ViT-Huge作为骨干模型和编码器对输入学生模型和教师模型的特征进行编码，设置batch size为10，使用BFloat16数据类型加速。学习率最大值设置为5×10-4，在初始的10个epoch会从0预热到最大值，使用Cosine Scheduler逐渐递减到1×10-6，使用Fused-AdamW优化器在Nvidia A100 GPU上预训练共200个epoch，自监督模型构建流程如图9所示。

图9

图9 自监督模型构建流程

Fig.9 Self-supervised model construction process

3.3 下游任务应用

下游任务应用是评价预训练模型的准确度和泛化性的重要指标，将完成预训练的教师编码器模型参数冻结，结合ViT-Adapter提取遥感影像多级空间特征，使用不同的任务头网络将预训练模型迁移到各种下游任务中去，在多个数据集中都达到了与监督学习相当的性能，表现出了良好的泛化能力。

场景分类下游迁移任务，使用线性探测(linear probe)头，即单独的线性层，将预训练模型迁移到场景分类任务中，实现不同场景目标的精准分类。仅使用原始影像经过编码器输出的class token输入线性探测头，与通过所有补丁全局池化得到的特征向量相比，这种方法通常可以在使用更少的计算资源的同时，得到更高的分类准确率。试验分别在AID和SIRI-WHU两个数据集上进行，共训练1000个epoch，评价结果如表4所示，模型在AID数据集上到达了89.2%的Top-1准确率和98.8%的Top-5准确率，在SIRI-WHU数据集上达到了94.7%的Top-1准确率和99.9%的Top-5准确率，达到了较高的场景分类准确度。

表4场景分类评价结果

Tab.4

数据集类别数训练集验证集Top-1准确率/(%)Top-5准确率/(%)AID307000300089.298.8SIRI-WHU12168072094.799.9

地物提取下游迁移任务，将UPerNet作为头部网络对遥感影像进行语义分割，实现云、水体、建筑物等多种地物的提取。原始影像通过编码器输出多尺度特征，再通过头部网络UPerNet从GF1_WHU_CLOUD、Potsdam、GID 3个数据集中提取云、建筑及水体，3种数据集均被裁剪到512×512像素以适应ViT的输入，每个任务均使用AdamW优化器训练200 epoch。试验结果如图10和表5所示，在单类地物要素提取任务上，模型表现出良好的泛化性和精度，但在复杂场景和细小变化中仍有漏提、错提现象。

图10

图10 地物提取结果

Fig.10 Results of feature extraction

表5地物提取评价结果

Tab.5

数据集训练集验证集准确率/(%)精确率/(%)回报率/(%)交并比/(%)F1值/(%)GF1_WHU_CLOUD7000300096.694.695.190.494.9Potsdam168072094.592.992.786.892.8GID22 048945098.895.493.790.094.5

变化检测下游迁移任务，同样将UPerNet作为头部网络对双时相遥感影像进行变化检测，在LEVIR-CD建筑物变化检测数据集上微调以检验在变化检测任务中预训练模型的性能。数据集被裁剪为512×512像素，使用16的batch size和AdamW优化器训练200 epoch。前时影像和后时影像将分别通过预训练完成的编码器进行特征提取，取两组特征的差值作为输入，通过UPerNet得到变化结果。LEVIR-CD数据集试验结果如表6和图11所示，在验证集上取得了77.3%的mIoU，模型在多个场景中正确地预测了影像中的小型建筑，但在预测结果中道路易与建筑物混淆，仍有待改进。

表6变化检测评价结果

Tab.6

LEVIR-CD178025697.990.082.277.385.6图11