摘要:近年来,大语言模型(LLM) 的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力,已经在 对话生成、代码编写、知识问答 等任务中展现出了卓越的表现。如今,LLM 的应用范围正进一步拓展,催生了一类新的智能体 —
1. 背景介绍
近年来,大语言模型(LLM) 的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力,已经在 对话生成、代码编写、知识问答 等任务中展现出了卓越的表现。如今,LLM 的应用范围正进一步拓展,催生了一类新的智能体 —— 基于 LLM 的 GUI 智能体(GUI Agents),它们能够像人类一样,直接通过鼠标、键盘与计算机或手机进行交互。
这类智能体不再依赖传统 RPA(机器人流程自动化) 方式,即基于预定义的规则和脚本执行任务,而是能够通过自然语言理解用户指令,自主完成操作。例如,它们可以打开应用、编辑文档、浏览网页,甚至执行跨软件的复杂任务,而无需开发者手动编写繁琐的自动化脚本。相比 RPA,这类智能体的优势在于灵活性和泛化能力,能够适应不同任务场景。
这一趋势让人们对 AI 助手的想象逐渐成为现实。科幻电影中的 贾维斯(Jarvis),能够理解自然语言并自主操作计算机,而今天的 LLM 智能体正在向这一方向迈进。企业中也正在推广 数字员工(Digital Workers),他们可以自动完成数据录入、报表生成、邮件回复等重复性任务,从而提高生产力。此外,智能体还被应用于 自动化软件测试、远程控制、智能办公助手 等场景,使人们能够自然地用语言指令控制计算机甚至整个企业 IT 系统。
然而,目前的 LLM 智能体在实际应用中仍然存在效率问题。现有方法依赖 逐步推理,即每执行一个操作前,模型都要 “思考” 下一步该做什么。例如,在执行简单的搜索任务时,智能体需要分别推理 “点击搜索框” → “输入关键词” → “点击搜索按钮”,即便是简单的步骤,也需要耗费额外的计算资源。这种模式虽然提高了通用性,但在应对大量 重复性任务 时,效率却远不如传统的 RPA。
因此,一个关键问题是:是否可以让智能智能体既保留推理能力,能够灵活应对新任务,同时又能像 RPA 一样高效执行常见任务?
为了解决这一问题,西湖大学 AGI 实验室 提出了一种可进化的 GUI 智能体框架 ——AppAgent X。这是 GUI 智能体先驱工作 AppAgent 的最新版本,它让 LLM 驱动的智能体能够从自身的操作经验中学习,不断进化更高效的行为模式。简单来说,AppAgent X 让智能体能够在任务执行过程中识别 重复性操作模式,并将一系列低层级的操作自动归纳为更高级的 “一键” 操作。例如,智能体可以学习到 “搜索” 这一任务模式,并自动将其抽象为一个高层级操作,而无需每次都推理具体步骤。这意味着,智能体在使用过程中会变得越来越高效,越用越聪明。
论文的第一作者是来自西湖大学的研究人员蒋文嘉,指导老师为西湖大学 AGI 实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
AppAgent X的功能示意图
2. AppAgent 的解决方案
在大语言模型与屏幕进行交互的时候,主流工作例如 AppAgent 定义了一系列模拟人类的动作,例如点击、滑动、输入。这些操作共同定义了一个基本的、与应用程序无关的操作空间,用于模拟人类与智能手机界面的典型交互。
在不断的屏幕感知与动作执行的循环中,直到任务的完成。
3. 挑战:智能与效率的平衡
在大模型驱动的 GUI 智能体中,一个关键问题是如何在智能决策与执行效率之间取得良好平衡。现有方法虽然能借助大模型的强大推理能力理解界面,并逐步规划点击、输入、滑动等交互操作,但这种逐步推理的方式往往导致较高的计算成本和执行延迟。例如,在完成一个简单的搜索任务时,智能体可能需要针对 “点击搜索框、输入关键词、点击搜索按钮” 三个步骤逐一推理,而这种方式虽然保证了决策的准确性,却牺牲了执行速度。
相较之下,传统的机器人流程自动化(RPA)工具虽然缺乏灵活性,但基于固定脚本的执行策略允许其在预定义任务上实现极高的执行效率。对比二者,大模型智能体的优势在于适应性强,能够在复杂或未知界面中推理最优交互方式,而 RPA 的优势则在于执行速度快,能够高效完成固定任务。如何在大模型智能体的智能性与执行效率之间找到最佳结合点,成为推动该技术落地的重要挑战。
4. 进化机制下的 AppAgentX
AppAgentX 提出了一种可进化的 GUI 智能体框架,使得智能体不仅能像人类一样自主探索和理解界面,还能通过学习自身的历史交互模式,逐渐优化执行过程,实现智能与效率的最佳结合。
通过引入链式存储机制和动态匹配执行机制,使得智能体能够高效记忆、归纳并优化自身的操作轨迹,从而在后续任务中复用高效的执行策略,减少重复推理,提高整体任务完成速度。
4.1 基于链式的存储机制
研究者为智能体设计了一种链式知识存储机制,用于记录每次任务执行时的完整交互流程。具体来说,智能体的每次操作都会被存储形成一个 “链”,其中包括:
页面节点:记录界面的详细描述与可交互组件,帮助智能体回忆不同界面的功能。元素节点:针对界面上的按钮、输入框等交互元素,存储其视觉特征及历史操作方式。捷径节点:对过去的操作步骤进行归纳,使智能体能够复用已有的成功经验。在此基础上,研究者利用大模型从历史操作路径中提取任务逻辑,并自动总结出页面和交互元素的功能描述。例如,智能体可以总结出 “搜索框 + 确认按钮” 这一模式,并将其作为高层级的语义单元记录下来。这样,在未来遇到类似界面时,智能体便无需从零开始推理,而是可以直接调用已学习到的高效解决方案。
4.2 动态匹配的执行机制
基于存储的交互链,AppAgentX 能够通过进化机制自动提炼出高效的执行方式。当智能体识别到某些操作模式具有固定的执行顺序时(例如点击搜索框 → 输入内容 → 提交搜索),它将动态创建一个捷径节点(shortcut node) ,将多个底层操作整合为一个更高级的动作,从而减少不必要的推理和执行时间。
在后续任务中,智能体会优先匹配当前界面与已有的链式存储记录,并判断是否可以直接调用高级操作节点。如果匹配成功,智能体便无需逐步推理所有低层操作,而是直接执行已经优化的快捷路径,提高任务执行效率。此外,对于未匹配到的任务,智能体仍能够基于基础动作空间进行动态推理,确保智能性和灵活性不受影响。
这一机制的优势在于,它使得智能体的推理能力与执行效率可以动态调节:
对于复杂任务,智能体依然可以依靠大模型的推理能力逐步探索执行路径;对于重复性任务,智能体能高效调用历史优化的快捷操作,提高执行速度;自适应进化,智能体能够不断优化自身的决策,使其在长期运行中表现越来越高效。5. 结论与展望
随着大语言模型(LLM)的快速发展,智能体正逐步从简单的文本交互进化到能够直接操作操作系统和 GUI 界面的自主智能体。然而,现有方法在效率和执行智能化之间存在权衡,导致 LLM 智能体在面对重复性任务时表现低效。AppAgent X 提出了一种可进化的 GUI 智能体框架,使智能体能够从自身的任务执行经验中学习,逐步形成更高效的操作策略。通过这一方法,AppAgent X 兼顾了 LLM 智能体的灵活性和 RPA 智能体的执行效率,实现了高效、智能、无需后端访问的 GUI 操作。
在实验中,AppAgent X 在多个 GUI 交互任务上展现出了显著的效率提升,并优于现有 SOTA 方法。它的进化能力使得智能体能够不断优化自身的操作流程,为未来的智能化人机交互奠定了新的基础。
展望未来,GUI 智能体的进化将是 LLM 智能体发展的关键方向之一。我们相信,随着 LLM 在推理能力上的持续进步,智能体可以进一步拓展至更复杂的应用场景。
来源:机器之心Pro