共话AI4S!航遥中心于峻川老师分享LLM技术演进与AI+遥感实证研究

360影视 欧美动漫 2025-05-20 17:47 2

摘要:作为新一代科研基础设施的核心组件,大语言模型(Large Language Model, LLM)凭借其强大的数据分析、逻辑推演和自主学习能力,正推动科研方法论向高效能、自动化、智能化方向发生系统性变革。基于此,2025 年 5 月 9 日,和鲸举办了大模型赋

导读

作为新一代科研基础设施的核心组件,大语言模型(Large Language Model, LLM)凭借其强大的数据分析、逻辑推演和自主学习能力,正推动科研方法论向高效能、自动化、智能化方向发生系统性变革。基于此,2025 年 5 月 9 日,和鲸举办了大模型赋能科研第2期活动中国自然资源航空物探遥感中心教授级高工于峻川老师受邀以《从DeepSeek 到 Agent:大语言模型驱动下的科研范式创新》为题,围绕技术演进、范式重构、平台部署和领域应用四大核心议题展开深度解析。

分享会上于老师系统阐述了国产大模型从技术突破到开源生态的建设路径,全面分析了从 LLM 到 Agent 技术的科研范式跃迁,通过和鲸 ModelWhale 平台合作案例展示了大模型本地化部署与 AI4S 智能平台搭建方案,并基于“AI+遥感”实践提出了科研能力重构的可行路径。

本篇实录整理自会议分享内容,提炼会议核心观点,旨在为科研工作者应用大语言模型提供方法论参考与实践指引。


于峻川

中国自然资源航空物探遥感中心教授级高工

理学博士,主要从事人工智能技术及在自然资源领域的应用研究。先后承担包括国防科工重大专项项目,国家重点研发计划课题、高分共性关键技术研究课题,自然资源部公益性行业基金等 10 余项科研项目。发表论文 40 余篇,授权发明专利 10 余项,多个知名遥感期刊审稿人。


以下为实录分享内容

Part 1

国产大模型的逆袭之路

这张图表系统梳理了 2018 年至今全球主流大语言模型的发展轨迹,可以观察到两个显著特征:国内以文心一言、智谱、Kimi 直至 DeepSeek 为代表的模型体系,虽起步阶段面临多重技术壁垒,但近两年已呈现指数级增长态势;反观以 OpenAI 为主导的国外技术阵营,虽持续保持领先优势,但也显现出发展迟缓趋势。这个趋势背后反映出 DeepSeek 问世前全球大模型研发面临的共性困境,一是数据-算力恶性循环下高质量训练数据的缺失,二是闭源生态下大语言模型的研究受限,阻碍了学术界的创新与协作优化,三是算力政治化与资源垄断。

DeepSeek 通过创新技术突破解决了这些困境问题,主要集中于以下维度:注意力机制升级(MLA)、模型架构革新(MoE)、强化学习驱动(GRPO)、训练范式创新(强化学习冷启动)低成本部署(蒸馏技术)

其中,DeepSeek R1-Zero 的创新意义重大,其与 Deepseek V3 最大的不同在于完全摒弃了传统的"预训练+监督微调"范式,转而采用纯强化学习策略进行训练。这一突破性方法使得模型无需依赖人工标注的监督微调数据,仅通过强化学习就能自主生成思维链,在部分基准测试中甚至取得了与 ChatGPT-o1 相当的分数。这不仅成功跳出了大模型领域长期依赖的"大力出奇迹"的思维范式,更重要的是为解决当前大语言模型面临的数据枯竭困境提供了全新思路,为后续研究开辟了新的技术方向。

此外,DeepSeek 的另一大创新在于其开源实践,实现了双重突破:一是打破了闭源垄断,使全民参与 LLM 竞技场,激活全民创新;二是构建了首个对标国际顶尖水平的国产 AI 技术底座,形成生态基建化,这些创新突破同时打破了上述大模型研发困境

关于 DeepSeek 创新价值的讨论,可从以下维度展开分析:

在创新性质的界定方面,尽管国际技术界存在 “技术性创新”与“工程性创新”的争议,但从我国技术发展实践来看,工程性创新具有重要现实意义,实质是通过 “量变引发质变”的工程创新模式突破技术霸权壁垒。在文化话语权建构层面,既往国外主流大模型以英文为核心架构,导致中华文化内涵在技术载体中难以充分体现,DeepSeek 为中文语言体系提供了自主技术载体,有助于重塑中文在 AI 领域的话语权体系。从中美技术发展模式对比来看,美国技术体系呈现“技术-资本-政治”的三位一体特征,而我国走的是“技术开源+成本控制+政策协同”的去中心化发展路径。DeepSeek 的成功实践侧面印证了我国技术发展模式的有效性。在制造强国建设背景下,我国高新技术领域长期面临尖端技术突破的压力,而 DeepSeek 的成功是新质生产力的具象化体现。

综上,DeepSeek 不仅是技术突破,更是中国“以开放创新争夺话语权,以产能优势破解技术垄断”的发展宣言。


Part 2

从LLM到Agent:科研范式的飞跃

关于大语言模型的应用选择,需结合不同模型的优势、场景需求和成本综合考量。

Deepseek 在中文语义处理与逻辑推理方面具备显著优势,适用于文本生成、内容理解等文字密集型场景;Gemma 3 作为轻量化多模态模型,具备灵活的多模态任务处理能力;千问具有完备生态体系,通过统一 API 接口实现多模型协同调用,降低技术接入成本;Claude 模型在编程代码生成、UI /网页设计等领域表现突出,具备较强设计美学感知能力;豆包与 Coze 同属字节生态,聚焦低代码开发场景,支持业务流程编排与定制化模型训练;Kimi 模型的核心优势在于长文本处理能力,可高效处理万字级文档分析任务;国外模型如 Deep Research、Grok 等各具优势,但受限于较高使用成本。

LLM 驱动的科研范式创新集中体现我总结为三个维度:科研驱动方式升级、科研效率跃迁与科研思维突破。

科研驱动方式升级:LLM 推动科研从线性探索向“数据-智能”协同驱动转变,新型范式通过数据驱动发现规律,与传统方法并不冲突。典型应用包括 AlphaFold、华为盘古大模型、GEE 技术等。科研效率跃迁:LLM 正推动科研从“手工作坊”向“智慧工厂”转型。其中包括 LLM 辅助文献总结/科研制图/代码生成,LLM辅助构建领域大模型,LLM 结合 Agents/MCP 等构建智慧工厂等,均使研发效率大幅提升。科研思维突破:打破学科壁垒,实现知识无界化,使“跨领域创新”成为常态。

什么是好用的大模型应用?是将 LLM 与应用逻辑深度结合,而非简单套用,以下举几个例子。

首先是关于文献知识库的构建,传统基于 LLM 对话的文献整理方式存在局限性:多轮对话导致流程冗长,信息提取零散,无法自动化处理。若将飞书多维表格与 LLM 深度融合,能实现文献的批量处理,提供创新解决方案。

其次是利用 LLM 进行科研绘图,但目前存在思维表达类的图表生成难度大,缺少 PPT 生成的优秀产品的问题。若将 LLM 与制图类网站/软件结合,如将概略想法交给 Deepseek 生成详细提纲,再将提纲交给 Napkin,让它选择性生成帮助理解的图片,再使用 Adobe Illustrator 进行深度调整,最后能够完成思维表达类图表的生成。

最后是 LLM 辅助编程,主流 IDE 组合包括 Cursor、Trae、VScode+Cline,LLM 能够通过交互提供代码注释,代码生成与调试等服务。

LLM如何跳出对话场景与实际业务相结合

LLM 在交互中难以应对复杂问题,存在幻觉、记忆和交互能力差的缺陷,而智能体(Agent)概念的重新兴起,本质上是大语言模型发展从“光说不做”到“言出必行”的必然阶段。这里所说的 Agent 指的是能够感知环境,独立做出决策并主动执行任务的人工智能系统,需具备四种能力:感知能力(涵盖多模态信息处理能力)、规划能力(通过深度强化学习实现从目标拆解到步骤生成的自动化推理)、记忆能力(构建包含短期、长期及即时存储的复合记忆架构)和行动能力(能够根据指示模仿人类调用工具)。

以“天气查询”场景为例,当用户发出“外面下雨了吗?”的指令时,智能体启动标准化处理流程:首先触发感知系统,通过天气预报/传感器采集环境数据并转化为结构化输入;接着决策规划系统对信息进行逻辑推理,生成信息反馈方案(说明天气状况)和行动执行方案(如何取用雨伞)等;最后行动系统执行方案,给出天气情况报告并递出雨伞等。

近期备受关注的 Manus 项目引发行业热议,其技术特点在于构建多智能体协作系统,通过不同角色的 Agent 之间的协作来完成复杂的任务。虽然该项目还不够成熟,但展现了智能体向垂向应用领域延伸应用的巨大潜力 。

另一个将 LLM 与实际业务场景相结合的关键点是,如何解决 LLM 调用工具接口的兼容性的问题。MCP(模型上下文协议)作为一种开放性协议,相当于 AI 应用的 Type-C 接口,能够建立统一的交互规范,有效解决传统模式中重复开发接口的低效问题。以“PDF 转网页文件”任务为例:传统模式中我们需分步骤手动操作(手动 PDF→生成→拷贝代码→保存 html 文件);利用 MCP 技术,我们只需通过单一指令即可触发全流程自动化。

此外,在模型能力依赖集成复杂工具链,参数量呈指数级增长的时代,MCP 技术允许开发“精专型模型”,通过调用外部工具完成功能拓展;同时打破单机局限,实现全球智能体协作网络,人人都能成为 MCP Servers 的贡献者,使垂向 Agent 成为主流。

在遥感技术领域,当前尚未形成大模型与业务场景深度融合的成熟应用。这里我们提出一个遥感领域大模型应用构想,旨在实现数据处理到决策输出的全流程智能自动化。以“滑坡灾害遥感识别”任务为例,用户通过交互界面发起指令,系统打开包含滑坡信息的影像,调用深度学习模型自动识别滑坡,调整矢量可视化效果及验证,最后生成实验报告。该过程中,我们通过整合 QGIS,本地深度学习模型调用,精度计算以及报告生成等多个 MCPs 构建 Agentic Workflow 应用,与未来科研需求高度契合。


Part 3

大模型本地部署与AI4S智能平台

接下来我们讲讲大模型的本地部署和 AI for Science(AI4S)平台的建设。

首先要了解不同版本 DeepSeek 对显存的要求。个人用户可通过三种技术路径实现:

LLM API+Chat 工具:通过调用官方或第三方标准化 API 接口,搭配轻量级客户端工具(如 Cherry Studio)完成功能接入,无需本地部署完整模型架构。优点是可使用满血 DeepSeek,缺点是费用高、可能造成数据泄露。本地 LLM+Chat 工具:基于 Ollama 等模型管理工具,下载开源大语言模型进行本地化部署,构建完全独立的运行环境。优点是数据安全,且显卡要求不高,缺点是无法使用满血 DeepSeek。随着轻量化LLM模型的不断推出,该方案更适合个人用户。本地 LLM+KTransformer:该路径比较极端,采用 KTransformer 技术框架,在低显存设备上运行满血 DeepSeek 模型,Windows 环境需重新编译。优点是成本较低,可使用满血 DeepSeek,缺点是部署难度大且无法并发。

针对大语言模型在专业领域易产生的“幻觉”的问题,检索增强生成技术(RAG)提供了系统性解决方案。那么如何实现本地化 RAG 的系统部署呢?以 Ollama 方案为例流程实现如下:

对于企业而言,部署需根据实际人员规模确定并发数。通过 DeepSeek-fp8 满血 700G+8卡H20 测试结果和计算可知,硬件成本约为 150 万元,每月电费开支约 3300 元,可见满血 DeepSeek 模型的企业级应用存在较高成本投入。

除硬件配置外,企业还需配套软件平台实现部署落地,企业级场景建议基于 vllm 或 lamma.cpp 框架构建部署环境。在技术实践中,我们与和鲸ModelWhale 平台合作构建了地质灾害隐患识别系统,已完成 DeepSeek 及千问系列模型的部署,基于 LLM 的 Workflow 也将于本月上线。

在 AI4S 领域的实际应用中,大模型技术的落地并非局限于单一的语言模型范畴,而是需要融合目标识别、语音分割等多模态深度学习技术形成系统性解决方案。构建 AI 科研平台的核心挑战,在于平衡科学研发需求与业务生产需求的内在矛盾——前者依赖碎片化计算资源进行高频模型训练,后者则要求稳定的算力支撑以实现数据存储和规模化推理部署。

那么如何构建兼顾两类场景需求的技术平台呢?在与和鲸ModelWhale平台的合作实践中,我们研发的科研平台具备独特的技术适配性,该平台满足“多源数据动态存取、代码资产动态管理、计算资源动态平衡、智能模型动态发布、软件环境动态适配和知识成果动态分享六个“动态”需求。以下介绍几个使用场景:

在模型训练场景中,传统单机训练模式存在效率瓶颈,研究人员难以精确预估训练周期,常需在训练完成后手动调整参数并启动下一轮训练,导致人力成本与时间成本的双重损耗。而基于AI训练平台的离线训练机制,可实现训练流程的全自动化管控,用户只需一次性提交数据资源,系统即可按预设逻辑依次执行多轮训练,并在完成后自动生成精度分析报告,完成“无人值守训练”。在代码管理与协作场景中,平台构建了一体化技术解决方案,优化 Github 的数字资产管理模式,支持代码版本迭代、多人协作,并能够一键分享数据、代码和环境,彻底解决复现代码时面临的环境配置冲突、依赖版本不兼容等痛点,确保技术成果在团队内的高效流转。在业务批量化处理场景中,形成独特的一个平台多个终端的“1+N”应用模式,针对不同的使用场景,建立不同的AI应用发布模式。通过发布Rest服务实现海量遥感数据的并行处理,适用于无需交互的规模化推理需求;通过可视化 Canvas 完成业务流程建模,适用于处理过程复杂、需要分阶段的科研与生产需求。此外,平台可构建可交互式的 Web APP,实现应用的可视化展示与在线分享。


Part 4

“AI+遥感”新趋势及应用场景解读

从技术演进与应用实践观察,大模型发展呈现以下核心趋势

轻量化专职 LLM 成为发展趋势多模态大模型体系不断崛起边缘计算与具身智能 LLM 落地重要方向(政务服务和军事领域)LLM 逐渐向三维空间智能领域延伸更真实的个性化数字分身成为重要发展方向

那么结合我的专业领域,谈谈“AI+遥感”的新趋势。传统遥感分析应用的模式在发生改变,AI 逐步成为遥感数据处理分析的主要手段。传统遥感数据处理以 ENVI/ArcGIS 等单机版商业软件为核心,而近年来,技术架构逐步过渡至以开源 Python 为基础的数据处理体系,数据分析逐渐走向数字化、集群化、自动化;算法和产品服务形式逐渐转向类似前面提到的 AI for Science 平台等 Web 端,数据和算力成为限制发展的主要因素;而多模态遥感、AI 大模型、云计算等新技术的融合应用极大提升了应用能力。

总结来说,AI 推动遥感解译技术发展的三个阶段:智能信息提取、智能交互、智能分析决策,其中大模型的应用场景可划分为以下主要类别:视觉大模型应用、多模态大模型应用以及 Agentic Workflow 应用。下面我将逐一介绍。

视觉大模型自适应迁移

基于 SAM 与 DeeplabV3+ 感知模块的融合架构 LandSlideNet 得以开发,实现视觉大模型向滑坡识别任务的快速迁移。在遥感滑坡识别任务中,传统模型微调方法分为以下三类:一是微调最后一层,算力需求低但效果较差;二是全参数迁移,效果好但算力要求高;而自适应迁移则在原有视觉基础大模型中,嵌入动态提示词,仅对该模块的参数进行训练,既能保证精度提升,又能满足低算力需求。LandSlideNet 的 MIOU 精度相对于DeeplabV3+ 提升了 8%,而训练参数量降低至源网络的 1%。此外,类似的方法在损毁建筑智能识别的场景下,表现出的性能提升更为显著。

遥感智能交互识别

针对传统视觉模型“推理结果修正成本高”的行业痛点,构建交互式智能识别解决方案。该系统引入人机协同机制,允许用户通过输入 Prompt 动态干预模型推理过程,通过样本引导优化、迭代反馈机制,显著降低人工后处理成本。

基于前面谈到的场景做延伸,我们想将图片中显微镜下黑云母矿物(即深褐色部分)提取出来。相比于随意森林的方法,可交互的智能识别仅需一个样本即可完成。流程如下:在矿物表面取点,通过SAM模型提出该点所在目标,提取特征后运用类似 CLIP 的网络做特征匹配,在其他图片中自动识别出的相似特征,将相似特征集合做成新的数据集,再反馈至 SAM-Adapter 模型微调,完成识别。在实际应用中,我们针对遥感中能反映地表形变信息的 InSAR 数据,通过 InSAR 形变相位图,利用深度学习模型识别与滑坡相关的地表形变。流程如下:采用逐步迭代的方式,先训练基础模型,以人工交互的方式对推理不佳数据进行修正,生成并积累新样本,再将新样本输入模型,促使模型与数据相互迭代。通过这种方式,我们实现了从县域到省域,再到整个西部地区的模型泛化。最终通过 377 景数据,在超 500 万平方公里的范围内完成应用,识别形变异常 4 万余处。

多模态大模型遥感识别

基于左图中典型的多模态大模型 VLM,我们可以进行目标检测(包括滑坡、建筑、农田等多类型),进行问答(比如问图像里有什么)等。

VLM 对于不同场景的识别数据应如何制备呢?如右图所示包含四个场景:描述图片,计算滑坡数量,语义分割,目标检测。描述图片需给出针对描述文字,可借助其他大模型来辅助书写;计算数量直接给出实际个数;语义分割需用30~40个点圈定整个目标范围;目标检测则用框将目标框选。通过这种方式将数据用于模型训练,使其最终具备识别检测能力。


Agentic Workflow

在多任务场景下,多模态大模型与 Agentic Workflow 有何差别?

就应用场景而言,多模态大模型覆盖的任务场景有限;Agentic Workflow 不仅能涵盖内部业务场景,还可以关联外部辅助应用场景。就识别精度而言,多模态大模型单任务识别精度不如专有模型;Agentic Workflow 则方便集成各类专有模型,尤其是细分场景。就分析能力而言,多模态大模型的分析能力取决于 LLM 大小,LLM 的微调受限于算力;Agentic Workflow 通过多种 LLM 协作,达到满血分析能力。就训练成本而言,多模态大模型虽然采用 Lora 技术但依然存在训练成本;Agentic Workflow 无需微调 LLM,不存在训练成本。就未知场景应用而言,多模态大模型有在未知场景下的“开放词”识别能力;Agentic Workflow 的专有模型不适用于未知场景,但可集成 VLM。


结语

AI时代下的生存法则

在 AI 时代下,年轻一代应建立技术-社会系统观念,在思想方面,要拥抱变化,重构认知,要接受不确定性,建立终身学习思维;在技术方面,要重视这个技术迭代的一个电梯效应,主动掌握AI技术;在思维方面,应批判性看待“AI无用论”与“AI 万能论”等观点,通过实践探索技术边界。未来,AI 本身不会替代人类,只有善用 AI 的人才能在竞争中脱颖而出 。

在 AI 时代下,年轻一代要注重AI能力建设,构建时代核心竞争力。首先,要明白如何提出问题,很多时候得不到理想结果是因为忽视了“Prompt”的重要性;其次,学会编程是接触AI的基础。同时,建议对经典模型进行复现,多参与开源项目,以此积累工作经验,并且要依据所在行业的痛点去寻找创新点。此外,技术与应用场景应是融合的关系,而非完全替代,关键在于找准应用对象和技术定位。

对于科研团队而言,一是重视复合型人才的培养,将人工智能应用到具体领域,既需要专业领域的知识,也需要掌握AI算法等相关内容。二是注重算力的积累,比如研究的进行需要存储/GPU/集群以及智能化平台等资源。三是要形成自己的数据资产,拥有独特的行业知识库、样本库,或构建行业专利技术标准,这些都能成为技术壁垒。最后要重视产品化的落地闭环,搞科研不能只着眼于解决科研问题,对市场的关注以及技术的产品化同样重要,通过宣传、营销等手段能够更好地推广技术。

45度科研人

如需获取分享材料可以扫码关注后回复关键词“从DeepSeek到Agent”领取,解锁大语言模型赋能的“AI+遥感”前沿应用案例与技术解析,掌握智能地学分析新范式。

若您需要获取完整版视频实录,欢迎前往和鲸科技官网AI.heywhale.(括号删除).com联系工作人员获取(备注“从DeepSeek到Agent”)。

和鲸深耕人工智能与数据科学多年,面向科研机构、高校及专业领域企业,旨在以旗下 ModelWhale 平台,整合大模型能力,赋能大模型应用构建、资产管理与生态协作。您也可前往和鲸官网AI.heywhale.(括号删除).com选择立即体验(备注“大模型应用产品”)。

来源:和鲸

相关推荐