LLM的关键转折：LAM，究竟是什么？

摘要：操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型（LLMs）为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型（Large Action Models）”，简称 LAMs。

操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型（LLMs）为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型（Large Action Models）”，简称 LAMs。

迄今为止，LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。但 LAMs 的出现，正在使智能体能够执行更复杂的操作，甚至能在图形用户界面（GUI）中自主导航。

IT 服务公司 Xebia 的集团董事总经理 Preetpal Singh 在接受采访时表示：“LAM 是 AI 系统发展中的一个关键转折点，它标志着 AI 从被动应答者向自主操作者的跃迁。”

实际上，LAM 正在将行业从“生成式 AI”引导向“智能体 AI”。

xtype（一家 ServiceNow 多实例管理平台公司）的产品营销负责人 Scott Willson 也表示：“AI 一直需要一个‘执行引擎’，LAM 正是生成式 AI 对这一需求的回应。”

LAM 是在 LLM 基础上训练而成的，专注于“行动”任务，并具备真实的外部数据与系统连接能力。这意味着，LAM 驱动的智能体远比普通 LLM 更强大——后者仅限于推理、检索和文本生成。

MinIO（对象存储系统）的 AI 解决方案工程师 Keith Pijanowski 表示：“当你在讨论 LAM，其实你就是在谈智能体。LAM 实际上是智能体的大脑。”

与传统 LLM 面向通用用途、训练数据来源广泛不同，LAM 更注重任务导向。Imagine Learning（教育平台）的 AI 事务副总裁 Jason Fournier 指出：“LAM 是将 LLM 微调，使其在推荐达成目标的行动方面表现更优。”

目前的一些 LAM 实践案例包括：

微软研究人员开发了可在 Office 中执行任务的 LAM（来源：The Decoder）；Orby 推出了一款用于企业任务自动化的 LAM；CogAgent 是一个开源模型，设计用于在 GUI 中执行任务；加州大学伯克利分校发布了 Gorilla，一个在 RAG（检索增强生成）基础上扩展运行时、执行行动的微调模型。

目前学界仍在积极研究 LAM，而业界对其定义尚未统一。尽管名称五花八门，许多被称为“可调用工具的 LLM”或“智能体框架”的项目，本质上都属于 LAM 范畴。

例如，OpenAI 最近在其 Responses API 中新增了“计算机操作”功能，允许开发者引导 AI 执行点击、滚动等屏幕上的操作。虽然 OpenAI 没有使用 LAM 这一术语，但这一功能正体现了“AI 行动力”的整体趋势。

微软研究人员在去年12月发布的一篇关于 LAM 的研究摘要中写道：“人们对超越语言助手、能执行现实任务的智能体系统需求正在快速增长。”而今年5月更新的另一项研究则描绘了一种“以 LLM 为大脑的新一代 GUI 智能体”。

在传统的企业自动化中，人们依赖于“机器人流程自动化（RPA）”，通过模拟点击、滚动、复制文本等用户行为来完成重复任务。而 LAM 正在走得更远。

不同于依赖硬编码逻辑的 RPA，基于 LAM 的智能体可以在运行时收集信息，甚至是那些在流程设计时尚不存在的数据。Pijanowski 表示：“这更像是一种动态业务逻辑。”

Willson 则认为 LAM 比 RPA “强太多了”：“……”

Willson 认为 LAM 的能力已经远超 RPA：“它不是根据固定脚本去做事，而是实时推理，适应不同场景。RPA 是静态的，而 LAM 是动态的。”

这使得基于 LAM 的智能体比传统系统更能适应变化的业务环境和用户需求。例如，它们可以：

在操作过程中根据最新上下文调整执行策略；主动判断执行哪个工具或 API；处理无法预料的异常情况。

目前的 LAM 系统，往往由以下几个关键构件组成：

多模态感知能力：能读取屏幕、识别按钮、理解图形界面。动作规划与执行模块：基于任务目标生成一系列操作指令，比如点击、键入、滚动等。实时环境反馈机制：能根据执行结果即时修正或重新规划步骤。与外部系统的连接能力：调用 API、读写数据库、发送请求等。

这些能力使 LAM 成为真正意义上的“AI 操作员”，可以辅助甚至替代人类在桌面环境、网页、企业内部系统等界面中执行任务。

目前，除了微软、OpenAI 和一些学术机构之外，还有越来越多创业公司和开源社区也在推动 LAM 的实践。比如：

AutoGPT 和 AgentGPT 的演化，虽然主要聚焦在文本流程自动化，但也逐步开始探索 GUI 操作；Orby 和 Cognosys 等公司，则专注于企业环境下的 LAM 商业化落地；GitHub 上涌现出大量“Auto Agent Framework”，正在尝试将 LAM 和 GUI 控制统一集成。

尽管这一领域仍在早期阶段，但它可能比“仅生成文本”的 AI 革命更具现实影响力，因为它直接进入了人类工作流的执行层。

我们曾用 LLM 革命性地解决了“理解”和“表达”的问题，现在 LAM 正试图解决“执行”的问题。

就像 Keith Pijanowski 所说：“语言模型是 AI 的大脑，而行动模型才是 AI 的双手和双脚。”

随着更多 GUI-aware、具备系统访问能力的 LAM 被开发出来，我们将看到 AI 真正开始动手做事——从写邮件、处理表格，到登录系统、分析报表、执行指令。

也许未来，企业的每个部门都会配有一个“数字助手”，不再只是回答你问题，而是真正替你完成任务。

来源：51CTO一点号

标签：智能体 llm rpa gui lam

本文地址：https://news.43u.com.cn/a/2094051.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!