摘要:操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。
操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。
迄今为止,LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。但 LAMs 的出现,正在使智能体能够执行更复杂的操作,甚至能在图形用户界面(GUI)中自主导航。
IT 服务公司 Xebia 的集团董事总经理 Preetpal Singh 在接受采访时表示:“LAM 是 AI 系统发展中的一个关键转折点,它标志着 AI 从被动应答者向自主操作者的跃迁。”
实际上,LAM 正在将行业从“生成式 AI”引导向“智能体 AI”。
xtype(一家 ServiceNow 多实例管理平台公司)的产品营销负责人 Scott Willson 也表示:“AI 一直需要一个‘执行引擎’,LAM 正是生成式 AI 对这一需求的回应。”
LAM 是在 LLM 基础上训练而成的,专注于“行动”任务,并具备真实的外部数据与系统连接能力。这意味着,LAM 驱动的智能体远比普通 LLM 更强大——后者仅限于推理、检索和文本生成。
MinIO(对象存储系统)的 AI 解决方案工程师 Keith Pijanowski 表示:“当你在讨论 LAM,其实你就是在谈智能体。LAM 实际上是智能体的大脑。”
与传统 LLM 面向通用用途、训练数据来源广泛不同,LAM 更注重任务导向。Imagine Learning(教育平台)的 AI 事务副总裁 Jason Fournier 指出:“LAM 是将 LLM 微调,使其在推荐达成目标的行动方面表现更优。”
目前的一些 LAM 实践案例包括:
微软研究人员开发了可在 Office 中执行任务的 LAM(来源:The Decoder);Orby 推出了一款用于企业任务自动化的 LAM;CogAgent 是一个开源模型,设计用于在 GUI 中执行任务;加州大学伯克利分校发布了 Gorilla,一个在 RAG(检索增强生成)基础上扩展运行时、执行行动的微调模型。目前学界仍在积极研究 LAM,而业界对其定义尚未统一。尽管名称五花八门,许多被称为“可调用工具的 LLM”或“智能体框架”的项目,本质上都属于 LAM 范畴。
例如,OpenAI 最近在其 Responses API 中新增了“计算机操作”功能,允许开发者引导 AI 执行点击、滚动等屏幕上的操作。虽然 OpenAI 没有使用 LAM 这一术语,但这一功能正体现了“AI 行动力”的整体趋势。
微软研究人员在去年12月发布的一篇关于 LAM 的研究摘要中写道:“人们对超越语言助手、能执行现实任务的智能体系统需求正在快速增长。”而今年5月更新的另一项研究则描绘了一种“以 LLM 为大脑的新一代 GUI 智能体”。
在传统的企业自动化中,人们依赖于“机器人流程自动化(RPA)”,通过模拟点击、滚动、复制文本等用户行为来完成重复任务。而 LAM 正在走得更远。
不同于依赖硬编码逻辑的 RPA,基于 LAM 的智能体可以在运行时收集信息,甚至是那些在流程设计时尚不存在的数据。Pijanowski 表示:“这更像是一种动态业务逻辑。”
Willson 则认为 LAM 比 RPA “强太多了”:“……”
Willson 认为 LAM 的能力已经远超 RPA:“它不是根据固定脚本去做事,而是实时推理,适应不同场景。RPA 是静态的,而 LAM 是动态的。”
这使得基于 LAM 的智能体比传统系统更能适应变化的业务环境和用户需求。例如,它们可以:
在操作过程中根据最新上下文调整执行策略;主动判断执行哪个工具或 API;处理无法预料的异常情况。目前的 LAM 系统,往往由以下几个关键构件组成:
多模态感知能力:能读取屏幕、识别按钮、理解图形界面。动作规划与执行模块:基于任务目标生成一系列操作指令,比如点击、键入、滚动等。实时环境反馈机制:能根据执行结果即时修正或重新规划步骤。与外部系统的连接能力:调用 API、读写数据库、发送请求等。这些能力使 LAM 成为真正意义上的“AI 操作员”,可以辅助甚至替代人类在桌面环境、网页、企业内部系统等界面中执行任务。
目前,除了微软、OpenAI 和一些学术机构之外,还有越来越多创业公司和开源社区也在推动 LAM 的实践。比如:
AutoGPT 和 AgentGPT 的演化,虽然主要聚焦在文本流程自动化,但也逐步开始探索 GUI 操作;Orby 和 Cognosys 等公司,则专注于企业环境下的 LAM 商业化落地;GitHub 上涌现出大量“Auto Agent Framework”,正在尝试将 LAM 和 GUI 控制统一集成。尽管这一领域仍在早期阶段,但它可能比“仅生成文本”的 AI 革命更具现实影响力,因为它直接进入了人类工作流的执行层。
我们曾用 LLM 革命性地解决了“理解”和“表达”的问题,现在 LAM 正试图解决“执行”的问题。
就像 Keith Pijanowski 所说:“语言模型是 AI 的大脑,而行动模型才是 AI 的双手和双脚。”
随着更多 GUI-aware、具备系统访问能力的 LAM 被开发出来,我们将看到 AI 真正开始动手做事——从写邮件、处理表格,到登录系统、分析报表、执行指令。
也许未来,企业的每个部门都会配有一个“数字助手”,不再只是回答你问题,而是真正替你完成任务。
来源:51CTO一点号