大型语言模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展

360影视 国产动漫 2025-04-20 17:33 2

摘要:在过去一年中,大型语言模型(LLMs)的发展使空间智能成为关注焦点,尤其是在基于视觉的具身智能方面引发了广泛讨论。然而,空间智能的涵盖范围远超这一领域,涉及从导航与城市规划到遥感与地球科学等多个学科与尺度。那么,不同领域中的空间智能有何异同与内在联系?本文首先

在过去一年中,大型语言模型(LLMs)的发展使空间智能成为关注焦点,尤其是在基于视觉的具身智能方面引发了广泛讨论。然而,空间智能的涵盖范围远超这一领域,涉及从导航与城市规划到遥感与地球科学等多个学科与尺度。那么,不同领域中的空间智能有何异同与内在联系?本文首先回顾了人类空间认知,并探讨其对大型语言模型中空间智能构建的启示。随后,我们分析了LLMs中的空间记忆、知识表示与抽象推理,强调它们的作用及相互关系。最后,我们基于一个从空间记忆与理解,到空间推理与智能逐层递进的框架,系统梳理了具身、城市乃至全球尺度上的空间智能表现。通过本综述,我们旨在为跨学科的空间智能研究提供系统性见解,并激发未来研究的灵感。

空间智能是一个天然跨学科的研究领域,涉及众多挑战、应用场景与研究方法。例如,在房间内完成导航、规划一个15分钟生活圈、预测图像的可能拍摄位置,乃至分析气候的空间分布模式,都体现了空间智能的关键作用。换句话说,空间智能无处不在,在人类社会和物理世界中都扮演着至关重要的角色。

空间智能的研究具有深厚的历史基础。一方面,它是人类理解自身认知与感知机制的重要路径 [Ishikawa, 2021; Eichenbaum and Cohen, 2014]。从心理表征(mental mapping)到路径选择策略(wayfinding strategies)等人类空间认知研究,为理解人类智能奠定了理论基础。另一方面,空间智能在实际应用中同样具有重要意义,例如具身导航 [Lin et al., 2024]、地理信息系统(GIS)[Zhao et al., 2024] 和气候预测 [She et al., 2024] 等任务。这一研究领域持续演化,正在逐步连接认知科学、人工智能与各类应用场景。

近年来,随着深度学习的迅猛发展,特别是大型语言模型(LLMs)的突破,空间智能研究也取得了显著进展。LLMs 在世界知识、规划推理能力和跨任务泛化方面展现出强大潜力,极大地推动了具身智能的发展 [Gupta et al., 2021]。在机器人导航、多模态感知与控制等领域,LLMs 正发挥着核心作用。例如,SpatialVLM [Chen et al., 2024] 与 Voxposer [Huang et al., 2023b] 等工作展示了 LLMs 在提升具身智能体空间推理与决策能力方面的前沿进展,使其能更高效地应对复杂环境。

除了具身智能,LLMs 也激发了城市级乃至全球尺度空间智能的研究热潮。在城市研究中,LLMs 被用于融合地理空间数据,助力城市规划优化 [Zhou et al., 2024b]、交通预测 [Li et al., 2024e] 以及基础设施管理 [Lai et al., 2023]。在全球层面,研究者探索了 LLMs 在遥感分析 [Kuckreja et al., 2024]、灾害预测 [Zhang et al., 2023b] 等方面的应用,展示了其处理大规模地理空间信息并生成洞见的能力。这些跨学科的进展充分说明了 LLMs 对空间智能研究的深远影响,为未来在多个领域的创新奠定了基础。

尽管空间智能的研究在不同学科中蓬勃发展,但目前仍缺乏一个统一的框架来全面理解与分析这一概念。现有工作往往局限于特定维度,如基于视觉的具身智能、城市规划或遥感推理,缺乏跨尺度与跨学科的整合视角。为弥补这一空白,本文从人类认知、基础空间能力以及多尺度系统智能(涵盖具身智能体、城市智能与地球科学)三个维度出发,系统回顾空间智能的发展历程。我们希望通过整合这些视角,为跨学科空间智能研究提供系统性的基础,并为未来的研究探索提供启发。

本综述的主要贡献包括以下三点:

提出一个结构化的分析框架,用于理解跨学科与多尺度下的空间智能,从空间记忆与感知逐步深入到推理与高级智能;

系统整合当前 LLMs 在空间智能应用中的研究成果,涵盖多个领域,并重点讨论其在空间记忆、知识表示与空间推理方面的表现,为研究者提供有价值的参考资源;

深入探讨当前跨领域空间智能研究中的关键挑战与未解问题,挖掘具身、城市与全球尺度智能之间的内在联系,并指明未来值得深入探索的研究方向。

2. 分类法

2.1 人类的空间智能

我们首先从神经科学与认知科学的视角回顾人类空间智能的研究,阐明其在多个领域和尺度中的潜在能力与起源。此外,我们还探讨了空间智能与其他类型人类智能之间的关系。这些研究成果有助于我们深入理解跨领域空间智能的关键能力,并推动更有效的空间智能建构与增强方法的发展。

2.1.1 认知地图

空间认知地图是对环境知识的内部表征,其特征在于主观性与扭曲性 [Ishikawa, 2021]。Tolman 于 1948 年首次提出该概念 [Tolman, 1948],后由 Eichenbaum 等人扩展 [Cohen, 1993; Eichenbaum and Cohen, 2014],强调海马体在空间与非空间记忆中的关键作用。在神经层面上,空间表征依赖于海马体中的位置细胞(place cells)以及内嗅皮层中的网格细胞(grid cells)[Moser et al., 2008; Moser et al., 2017]。位置细胞在个体处于特定位置时激活,而网格细胞则提供类坐标系统,用于映射环境。这些细胞,加之方向细胞(head direction cells)与边界细胞(boundary cells),共同构成了构建空间认知地图的神经基础 [Long et al., 2025]。近年来的发展,如 Tolman-Eichenbaum 机(Tolman-Eichenbaum Machine, TEM)[Whittington et al., 2020],展示了通过结构抽象与跨环境表示,网格细胞具备泛化空间与关系记忆的能力。相比之下,大型语言模型(LLMs)借助 Transformer 架构模拟空间任务,如位置编码与导航,其机制与海马体功能形成呼应 [Whittington et al., 2021]。

2.1.2 空间图式(Spatial Schema)

图式是从多次经验中抽象出的高级知识结构,在感知、解释与记忆事件的过程中起着关键作用。它们随着新经验和记忆的积累而不断演化,影响着记忆的形成、巩固与提取 [Gilboa and Marlatte, 2017]。在人类空间认知中,图式扮演着重要角色。空间图式是通过跨环境经验迁移与泛化形成的高级空间认知结构,与认知地图不同,其加工过程主要集中在新皮层的特定区域。空间图式具有高度抽象性,是在相似环境中重叠的神经表征整合中逐步形成的。它们作为高阶空间表征,超越具体环境的限制,例如人们对现代城市预期布局的认知 [Farzanfar et al., 2023]。空间图式与认知地图作为不同层级的空间认知结构,彼此交互、相互影响,共同支撑人类的空间认知。

近期研究探讨了基于大型语言模型的空间智能与人类空间智能之间的相似性与关联。例如,Momennejad 等人评估了其认知地图构建能力 [Momennejad et al., 2024]。然而,LLMs 仍存在诸多局限,包括拓扑推理错误(如虚构路径、效率低下)与视觉-空间感知差距。尽管对人类与 LLMs 的认知地图进行研究有助于揭示空间智能的本质,但在提升 LLMs 的图式学习能力与空间语法整合方面仍面临重大挑战。

2.2 空间智能的分类体系

基于人类的空间记忆与智能,我们提出了一种适用于大型语言模型的空间记忆与空间智能分类体系,如图 2 所示,并基于该框架系统性综述了当前研究。具体而言,我们首先介绍赋予 LLMs 空间智能的基础能力,这些能力分为空间记忆与知识,以及抽象空间推理能力。随后,我们聚焦于空间智能在现实世界中的应用,从具身智能(embodied intelligence)、城市智能(urban intelligence)与地球智能(earth intelligence)三个维度展开探讨。

3.1 LLMs 的空间记忆与知识

空间记忆是指个体回忆曾经经历过的空间关系、实体与属性的认知能力。而空间知识则是一个更广泛的概念,它不仅包括这种记忆,还涵盖了与空间相关的常识推理和逻辑思维能力。广义上的空间记忆与知识融合了抽象空间认知与现实环境中的空间能力。

近年来,最先进的大型语言模型(LLMs)已展现出在处理空间任务方面的出色表现,体现出其在空间记忆与知识方面的能力 [Bhandari et al., 2023]。多模态大型语言模型(MLLMs)更进一步,将空间信息的记忆与知识延伸至语言与视觉双模态中 [Yang et al., 2024b]。LLMs 的空间记忆与知识既可以来源于内部,也可以借助外部资源。内部空间记忆与知识是在预训练或后训练阶段被编码进模型参数中的 [Petroni et al., 2019; Gurnee and Tegmark, 2024; Roberts et al., 2020];而外部空间记忆或知识则指模型在需要时调用外部知识存储以获取特定空间信息 [Mansourian and Oucheikh, 2024]。空间记忆与知识是 LLMs 空间智能的重要组成部分。许多通用任务与空间相关任务,如问答 [Mai et al., 2021; Yamada et al., 2023]、导航 [Epstein et al., 2017; Feng et al., 2024c] 和地理定位 [Haas et al., 2024],都依赖于对空间环境的准确与充分记忆与理解。

随着预训练生成模型的发展,提升 LLMs 空间记忆与知识的实践不断涌现。研究者提出了多种训练方法以在训练中更好地编码空间信息 [Feng et al., 2024a]。也有研究尝试融合外部知识库来提供空间知识支持 [Yu et al., 2024b],以及挖掘 LLMs 内部压缩空间知识的潜力 [Manvi et al., 2023]。

尽管该领域发展迅速,LLMs 的空间记忆与知识仍面临诸多挑战。其中一个关键问题是“幻觉”现象(hallucination)[Lee et al., 2022],即模型可能生成不真实或不符合事实的内容 [Huang et al., 2023a],从而影响其在空间任务中的有效性。另一个突出挑战是知识编辑 [Zhang et al., 2023c]。考虑到空间环境的动态变化,需要持续、及时地更新 LLMs 的记忆与知识,以反映准确的空间信息。

3.2 LLMs 的抽象空间推理

抽象推理能力是一种核心认知能力,使智能体能够将复杂的现实简化为可操作的心理模型。在空间智能的语境中,抽象推理尤为关键:它不仅有助于将复杂的物理空间简化为可管理的认知表征,还为高层次空间认知提供了基础,充当了客观空间环境与主观认知表征之间的桥梁。

随着 LLMs 在认知任务中的表现日益提升,评估其空间抽象推理能力成为当前研究的重要方向,不仅有助于识别其局限,也为模型优化提供指导。目前关于 LLMs 空间抽象推理能力的评估主要集中在三个方面:定性空间推理[Yamada et al., 2023; Sharma, 2023; Lehnert et al., 2024; Li et al., 2024a]、几何推理[Zhang et al., 2024; Kazemi et al., 2023] 与图论推理[Luo et al., 2024]。

定性空间推理关注模型是否能够通过语言理解空间关系与空间变换。在这一方面,尽管 LLMs 在多跳推理任务中存在性能衰减,但研究表明,引入结构化思维框架可有效缓解这一问题 [Li et al., 2024a]。在空间规划问题中,Lehnert 等人展示了如搜索动态引导(search dynamics bootstrapping)等训练策略对提升模型在复杂空间规划任务中的效果 [Lehnert et al., 2024]。

几何推理评估模型对数学-几何概念及其在空间问题中应用的理解。GeoEval 框架系统评估了 LLMs 在多个几何领域的能力,发现模型在逆向推理上的表现不如正向推理,但通过问题重构策略能显著提升效果 [Zhang et al., 2024]。GeomVerse 项目系统性地展示了视觉语言模型(VLMs)在需要长推理链的几何任务中存在困难,而不仅仅是知识检索 [Kazemi et al., 2023]。

图论推理考察模型对图结构的理解与操作能力。GraphInstruct 项目开发了一套完整的测试集,揭示了 LLMs 在诸如最小生成树、哈密顿路径与最短路径等复杂图算法中的困难 [Luo et al., 2024]。不过,研究也显示,通过强调中间推理步骤的结构化训练方法,可以有效缓解这些问题。

此外,Xu 等人提出了一种心理测评框架,用于定义视觉语言模型(VLMs)中的五种基本空间能力(Basic Spatial Abilities, BSAs),并指出其在几何编码能力不足及动态模拟能力缺失方面的挑战 [Xu et al., 2025]。

总的来看,目前这三方面的评估表明,预训练的 LLMs 主要依赖语言理解来处理抽象空间问题,尚缺乏真正的空间认知能力。包括结构化推理框架、知识引导训练以及中间过程监督等方法的提出,在一定程度上改善了这些问题。未来,该领域亟需更全面的评估标准与人类表现的有意义对比,以更深入理解并推动 LLMs 空间推理能力的发展。

4.1 具身空间智能

如图 5 所示,具身 AI 中的空间智能包含两个关键阶段:

1)空间感知与理解,即智能体获取并处理空间信息以构建对环境的内部表征;

2)空间交互与导航,即基于这些表征执行移动、任务和决策。

4.1.1 空间感知与理解

空间感知与理解是具身智能的核心能力,使得智能体(如机器人)能够进行导航、交互并推理其所处环境。近年来,研究表明多模态大型语言模型(MLLMs)通过融合视觉与文本数据,能够增强空间推理与交互式决策能力。主要进展体现在以下三个方面:多模态空间感知、场景级空间推理和基于记忆的空间探索。

多模态空间感知聚焦于融合 RGB、深度图与文本信息,以提升目标定位与理解。例如,LLMI3D [Yang et al., 2024a] 能够通过空间增强特征提取与基于 3D 查询 token 的解码器,从单张 2D 图像中估计 3D 目标位置;SpatialBot [Cai et al., 2024] 融合深度感知,用于提升机器人操控与空间推理,并构建 SpatialQA 数据集对模型进行深度估计与目标定位训练。尽管这些方法扩展了模型的感知能力,但多模态数据的有效整合与细粒度深度推理仍是挑战。

场景级空间推理使智能体能够理解空间关系、对齐多视角信息并解释动态环境。Video-3D LLM [Zheng et al., 2024] 将 3D 空间坐标嵌入视频特征中,支持 3D 问答、视觉定位与密集字幕生成;Scene-LLM [Fu et al., 2024] 则整合自我视角与全局 3D 场景表示,利用点云特征实现更有效的场景理解与交互规划。这些模型增强了时序空间信息处理能力,但如何将连续 3D 空间结构与语言推理对齐仍是一个开放问题。

基于记忆的空间探索支持长期推理与自适应决策,使智能体能够记忆与回调空间知识。3DMem [Yang et al., 2024d] 引入多视角记忆快照机制,记录已探索区域并识别尚未探索的边界,有效提升主动探索与知识检索的平衡能力。尽管该方法增强了终身学习与自主适应性,但其可扩展性与高效检索机制仍需进一步研究。

随着研究推进,提升多模态融合能力、优化空间推理机制与强化记忆模块将成为推动 LLM 驱动的具身空间智能发展的关键。

4.1.2 空间交互与导航

空间交互与导航是基于感知与理解进行的行为执行过程,涉及行动规划与未来轨迹预测。现有研究主要从两个方面展开:运动控制导航任务

运动控制包括简单动作生成与复杂环境中的交互。前者依赖 MLLMs 的感知能力直接生成目标动作,例如 RT-2 [Zitkovich et al., 2023] 将大规模互联网数据预训练的视觉-语言模型(VLMs)应用于机器人动作生成;VIMA [Jiang et al., 2022] 使用 Transformer 架构处理多模态提示,自动生成动作序列。而在复杂环境下,空间推理能力使模型可应对开放任务。VexPoser [Huang et al., 2023b] 借助 MLLMs 的推理与代码生成能力创建 3D 空间表示并规划机器人动作;GAJ-VGG [Wang et al., 2023] 构建图神经网络,利用空间与语义关系建图辅助动作决策。

导航任务依赖感知与记忆,结合推理预测下一步位置。根据所用模型类型,可划分为基于语言模型与视觉语言模型的导航任务。Guide-LLM [Song et al., 2024] 输入结构化文本地图,利用 LLM 的推理能力进行路径规划;NavGPT [Zhou et al., 2024a] 利用视觉模型将环境图像转为文本,再由 LLM 综合当前与历史环境描述进行轨迹规划;NavGPT-2 [Zhou et al., 2025] 进一步结合视觉观察与导航策略网络,提升导航推理能力;TopV-Nav [Zhong et al., 2024] 使用俯视图中目标的边框与标签对 MLLMs 进行提示,实现动态地图缩放与目标导航;MP5 [Qin et al., 2024] 在 Minecraft 环境中构建具身系统,通过主动感知调用 MLLMs 分解复杂任务;VSI-Bench [Yang et al., 2024b] 评估 MLLMs 的室内路径规划能力,发现其可结合简单认知地图有效导航;NWM [Bar et al., 2024] 提出视频生成模型,预测未来目标帧以辅助导航。

4.2 城市空间智能

具身空间智能主要涉及在“手可触及”的微观空间中进行交互与移动;而在更大尺度的场景中,LLMs 所需的空间推理范式则发生了根本性的变化。这种范式转变源于一个关键的尺度效应:随着空间范围扩大,智能体的物理体积相对于环境而言变得微不足道。因此,智能体从具体身体嵌入的空间操作转变为处理超出直接身体接触范围的广域空间信息。

这一转变要求从主观具身认知向客观空间表征发生认知跃迁,即 LLMs 需要将“空间”概念化为一个独立的、具有抽象属性的实体。这种空间表征能力支持更高级的空间任务,包括但不限于:认知地图构建、路径规划、轨迹优化,甚至是生成式空间设计。

城市环境是这种宏观尺度空间智能发展的理想测试场。作为最复杂的人类建成空间系统,城市将异构元素整合为多层次结构,涵盖物理基础设施、功能区域与社会经济网络等多个维度。其空间复杂性已催生城市计算与空间计量经济学等交叉研究领域,为方法论打下了基础。

如图 6 所示,为系统性研究城市空间智能,我们提出了一个框架,将其划分为四种能力:理解、记忆、推理与智能。前两者衡量 LLM 对城市要素的编码与存储能力,后两者则评估其在执行城市任务(如移动模拟、服务资源优化与城市规划)中的操作能力。

4.2.1 空间理解与记忆

空间记忆是指模型回忆地理信息及不同空间元素之间关系的能力 [Gurnee and Tegmark, 2024]。通过对地理数据的预训练,大型语言模型天然具备一定的空间先验知识 [Manvi et al., 2024],使其能模拟人类的空间记忆过程,识别、存储与检索空间信息,这对于需要地理推理的任务至关重要。

空间理解能力主要可分为两个方面:

1)区域特征理解;

2)空间位置与关系推理。

区域特征理解方面,Manvi 等人提出 GEOLLM 框架以从 LLMs 中提取地理空间知识 [Manvi et al., 2023],并分析其地理信息偏差 [Manvi et al., 2024]。Kuckreja 等人利用卫星图像理解区域特征 [Kuckreja et al., 2024]。此外,将卫星图像、语言、兴趣点(POIs)等多模态数据结合用于社会经济指标预测 [Xiao et al., 2024]。

空间位置与关系推理方面,Ning 等人利用 LLM-Agent 构建城市知识图谱 [Liu et al., 2022; 2023]。我们总结了这两类任务常用方法:

区域特征理解通常通过提示工程(prompt engineering)提取先验知识,将开源空间数据与多模态信息融合,进行区域对齐;

另一种方式是通过 LLM 生成训练数据,辅助下游任务。空间关系推理则基于模型的预训练空间先验,对嵌入地理知识进行结构推理,此外还开发了自动化工具构建与验证空间关系数据集,以支持结构化表示与空间推理能力的提升。

4.2.2 空间推理与智能

城市中的空间推理是指基于空间数据或空间关系,通过推理过程获取新的空间信息或预测未来城市动态。例如,GeoReasoner 框架集成了高质量街景数据,提升了 LLM 的空间推理能力 [Li et al., 2024c]。

一些研究聚焦于居民行为模式的推理:Wang 等人使用 LLM 分两个阶段建模个体出行行为:首先识别居民时空出行模式,然后生成其移动轨迹 [Wang et al., 2024a]。Feng 等人将轨迹预测划分为三项子任务:记忆个体模式、学习群体的空间迁移关系、结合城市结构空间知识 [Feng et al., 2024b]。Shao 等人提出基于行为链的推理方法(Chain of Planned Behavior),利用 LLM 的逐步推理能力,实现出行意图的递归式预测 [Shao et al., 2024]。Gong 等人设计“出行意图记忆网络”与“人类出行偏好提示池”,帮助 LLM 理解出行动机的语义信息 [Gong et al., 2024]。

城市空间智能聚焦于基于空间数据做出响应式与决策性行为,具备在复杂环境中实时决策的能力。例如城市规划是一个高度空间化的决策任务。Zhou 等人提出一个多智能体协作框架,实现协同式城市规划 [Zhou et al., 2024b]。交通信号控制任务依赖空间感知,LLMLight 将任务描述与实时交通状态整合进提示中,利用 LLM 的“思维链”能力推理最优控制策略 [Lai et al., 2023]。

在导航任务中,模型需识别空间变化并实时响应:Xu 等人提出 Flame 系统,在三阶段中逐步增强模型推理能力,从单一街景图理解扩展到多图路径规划,并最终实现端到端空间决策 [Xu et al., 2024a];Schumann 等人结合 LLM 与真实环境交互,使用语言描述轨迹与视觉观察,提示 LLM 解决决策任务 [Schumann et al., 2024];Zeng 等人则提出“感知-反思-计划”的三步工作流,驱动 LLM 智能体自主完成城市环境中的导航任务 [Zeng et al., 2024]。

4.3 地球空间智能(Earth Spatial Intelligence, ESI)

地球空间智能(ESI)是人工智能与地球科学交叉融合的多学科研究领域。ESI 利用大规模时空数据与前沿技术(如 LLMs 与多模态 LLMs),解决包括气候科学、地理学、海洋科学和地质学在内的复杂跨域问题。这些模型可处理海量数据,发现潜在模式,生成可用于建模、决策与环境应对的洞察,从而加速科研与可持续发展。

气候科学中,LLMs 通过建模时空依赖性并整合气象栅格数据,提升了降水与气候事件预测的精度。在地理学中,LLMs 可与地理信息系统(GIS)结合,实现自动化地理空间推理与本地化空间分析,同时通过自适应模块与对比学习增强上下文理解能力。海洋科学方面,视觉语言模型可控制水下自主航行器(AUV),而时空编码则缓解了数据稀疏问题,推动了波高预测与海洋环境建模。地质学领域,LLMs 融合图像与调查数据进行地质建模,提升空间推理能力,并简化基于遥感的矿产勘查流程。

ESI 正通过整合自然语言理解、多模态信息融合与时空推理彻底变革地球科学研究,并为科学发现、资源管理与全球问题应对提供了强大工具。

4.3.1 全球编码(Global Encoding)

在全球尺度下,有效的位置编码机制是实现机器空间认知的关键。传统基于 LLM 的应用多使用经纬度坐标来表示位置 [Manvi et al., 2023; Yan and Lee, 2024],而机器学习与深度学习领域则发展出更丰富的空间表示方法 [Wu et al., 2024]。

二维编码方法包括:瓦片 ID 编码(tile ID)、正弦位置编码(sinusoidal encoders)、基于核函数的编码方法;三维表示方法则包括笛卡尔坐标编码及各种自监督学习策略。

据 TorchSpatial 基准测试 [Wu et al., 2024],Sphere2Vec-sphereC+ 方法是一种保持地球表面两点间顺序关系的自监督 3D 编码技术,在多项指标上表现最优。尽管 tile ID 编码是最基础的方式,其性能也显著优于 GPT-4V [Wu et al., 2024],这一现象可能反映出:LLMs 在显式空间学习任务中的适用性仍有限,但它们在小样本与零样本学习、跨模态信息整合等方面表现出高度灵活性与适应性。

4.3.2 气候(Climate)

气候事件具有强烈的时空依赖性,部分已可被语言模型建模与总结,因此目前已有多个尝试利用 LLMs 进行气候事件的预测与推理。

LLMDiff [She et al., 2024] 引入来自预训练 LLM 的 Transformer 模块,作为通用视觉编码器,用于建模长期时序依赖性并提升降水预报精度。CLLMate [Li et al., 2024b] 联合 LLM 与 VLM,将气象栅格数据与气候事件语义信息对齐,在该对齐数据上训练,提升栅格数据驱动的气候事件预测能力。

在气象预测中,大模型应用前景广阔。例如:

GenCast[Ravuri et al., 2021] 使用机器学习技术生成 15 天概率型天气预报;

PanguWeather[Bi et al., 2023] 引入三维深度网络,利用地球先验知识和时间层级聚合,实现中期全球天气预测;

NowcastNet[Zhang et al., 2023b] 融合物理演化模型与条件学习方法,实现非线性极端降水临近预报,预测时长达 3 小时;

Fuxi[Chen et al., 2023] 利用 ERA5 数据开发级联式机器学习系统,提供 15 天、6 小时间隔、0.25°分辨率的全球天气预报。

这些研究验证了大模型在气候建模中随着训练数据规模的增加而不断增强的预测能力。

4.3.3 地理(Geography)

LLMs 掌握了丰富的地理知识,因此其在地理任务中的应用已广泛开展。相关任务包括:

全局范围的地理知识提取与感知;

需要对具体位置进行判断与操作的任务(如定位、制图等)。

Manvi 等人发现,仅使用经纬度提示 LLM 无法准确预测如人口密度等关键指标,但结合来自 OpenStreetMap 的辅助地图数据后,预测准确率显著提升 [Manvi et al., 2023]。Roberts 等人指出,MLLMs 在基于记忆的地理任务中表现良好(如位置识别、图像匹配),但在复杂推理或上下文地理分析方面仍存在显著不足 [Roberts et al., 2024]。

为弥补这些不足:

GeoGPT利用成熟 GIS 工具实现 LLM 与空间任务的自动化集成 [Zhang et al., 2023a];

GeoSEE构建了六个信息采集模块,供 LLM 自主选择应对不同国家与指标需求 [Han et al., 2024];

GeoReasoner引入双重对比损失,使模型能够识别邻近地点与相同实体之间的空间关系 [Yan and Lee, 2024]。

4.3.4 其他学科应用

LLMs 也被应用于海洋科学与地质学等领域,借助其自然语言理解、泛化能力与推理能力,解决数据稀疏与复杂决策等典型问题。

海洋科学中,OceanPlan [Yang et al., 2024c] 利用 LLM 控制自主水下航行器(AUV),通过视觉语言模型将图像观察转换为语义地图,并提出分层规划框架将自然语言命令转化为控制信号,并在特殊情况下进行自适应调整。Li 等人还利用 LLM 在稀疏观测数据基础上预测显著波高 [Li et al., 2024d],通过时空编码器将观测数据转化为特征表示,与语言提示嵌入对齐并输入 LLM 进行预测。

地质学中,Xu 等人通过构建融合多模态数据的知识图谱(KG)并将其嵌入低维空间,再与提示嵌入对齐,实现对隧道地质条件的预测 [Xu et al., 2024b]。Yu 等人提出多智能体协作框架,将多个 MLLM 智能体分别应用于遥感图像中不同地质特征的识别与集成,在遥感矿产勘查中表现优异 [Yu et al., 2024a]。

综上,LLM 空间智能在这些学科中的应用主要可归纳为两种模式:

1)将空间特征对齐至提示嵌入中并输入模型以进行预测任务

2)设计具身式工作流,以支持复杂空间推理与推断任务

结论

本文从神经科学与认知科学视角出发,探讨了人类空间智能的相关研究,并对不同学科领域,尤其是在大型语言模型(LLMs)时代背景下,不同空间尺度上的空间智能研究进行了系统回顾与总结。文章旨在提供一份关于跨学科空间智能研究的全面综述,既有助于现有研究的归类与理解,也为未来研究方向提供启发与参考。

我们认为,跨领域、多尺度的空间智能研究将在未来成为一个关键的研究方向,并将在多个学术与应用领域产生深远影响。同时,对空间智能的深入探究也将反哺通用人工智能的发展,为人类迈向真正的通用人工智能(AGI)奠定坚实基础

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问进入。

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

国际能源署:2025 迈向核能新时代

麦肯锡:人工智能现状,组织如何重塑自身以获取价值

威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

国际能源署(IEA):能效 2024 研究报告(127 页)

Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

迈向推理时代:大型语言模型的长链推理研究综述

波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

华为:2025 鸿蒙生态应用开发白皮书(133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

GTI:2024 先进感知技术白皮书(36 页)

AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

《无人机辅助的天空地一体化网络:学习算法技术综述》

谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

《新兴技术与风险分析:太空领域与关键基础设施》最新报告

150 页!《DeepSeek 大模型生态报告》

军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

真格基金:2024 美国独角兽观察报告(56 页)

璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界:多模态生成模型的统一综述

中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

欧盟委员会 人工智能与未来工作研究报告

加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

《21 世纪美国的主导地位:核聚变》最新报告

沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

光子盒:2025 全球量子计算产业发展展望报告(184 页)

奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

来源:人工智能学家

相关推荐