摘要:“打开设置里的Wi-Fi”、“帮我预订今晚7点的餐厅”或者“给客户发一封邮件”。只需对AI助手说一句话,它不仅能理解你的指令,还能直接完成操作,这不是科幻,多模态大模型(MLLMs)正在推动这个未来变成现实。
前言
“打开设置里的Wi-Fi”、“帮我预订今晚7点的餐厅”或者“给客户发一封邮件”。只需对AI助手说一句话,它不仅能理解你的指令,还能直接完成操作,这不是科幻,多模态大模型(MLLMs) 正在推动这个未来变成现实。
从苹果的 Ferret-UI 系列,到国内的 AutoGLM、再到正在快速进化的 AppAgent X,多模态UI理解技术正在颠覆传统的人机交互方式,让AI不仅能看见界面,还能看懂并操作它。
今天,就让我带你一起探讨——
为什么传统大模型搞不定UI界面?
最新的多模态UI理解模型是如何突破的?
作为AI产品经理,我们能从这场革命中学到什么?
文章很长,如果你对细节不感兴趣,建议直接滑动到最后一个章节。
01
—
从“看见”到“看懂”,AI的跨越式进化
现在的AI助手已经可以理解图片、视频。但为什么它们在面对手机、网页、软件界面时,可能却“看不懂”?
让我们拆解一下一个简单指令背后的挑战
“打开微信公众号‘AI产品经理研习与实践’最新发表的文章”
AI要完成这个任务,需要三大能力:
1️⃣ 视觉解析:识别屏幕上的按钮、图标、文字、菜单等元素;
2️⃣ 空间推理:理解这些元素的位置、层级关系,比如“文章列表在下方”“搜索栏在顶部”;
3️⃣ 操作预测:理解用户的意图,推断“点击哪个按钮”“如何滑动屏幕”。
而传统的多模态大模型(GPT-4V、Gemini 1.5等)主要擅长处理自然图像,却在UI解析上频频翻车,原因就在于
❌ UI界面逻辑复杂,不是普通图像,包含大量“按钮-导航-文本”的层级结构;
❌ 文本比重高,普通MLLM对UI小文字和布局理解较弱;
❌ 交互逻辑难度大,不仅是“识别”,还要理解“操作路径”和“用户意图”。
这正是 Ferret-UI、AutoGLM、AppAgent X 这些“下一代多模态UI理解模型”正在突破的方向。
02
—
Ferret-UI:
让 AI “看懂”手机界面
传统多模态模型主要针对自然图像,当面对复杂的 UI 设计时,识别精度骤降。为解决这一问题,苹果公司推出了专用于 UI 理解的 Ferret-UI系列模型,其核心在于将屏幕内容转化为结构化的语义空间,使 AI 能够准确解析 UI 元素、理解交互逻辑。
多模态大模型的局限
在 GPT-4V、Gemini 1.5 这类多模态大模型(MLLM)兴起后,AI 已经能理解图片、视频,并在一定程度上识别 UI 元素。但现有的 MLLM 主要针对的是自然图像,一旦遇到 UI 界面,准确率就会大幅下降。
这是因为:
UI 结构更复杂不像普通图片,UI 画面中的组件(按钮、文本、图标等)是有逻辑关系的,而不仅仅是视觉对象。文本比重高UI 画面通常包含大量文字,而普通 MLLM 对“小文字”和“空间布局”的理解较弱。交互逻辑要求更高UI 解析不仅是“识别屏幕上的内容”,更重要的是“理解用户的操作意图”,例如“找到‘提交’按钮并点击”。Ferret-UI的特点
为了专门优化 UI 解析能力,苹果在 2024 年推出了 Ferret-UI:
基于多模态大模型(MLLM)融合了文本、图像、布局等多种信息。支持 UI 组件的指代(Referring)、定位(Grounding)和推理(Reasoning)能回答“这个按钮是什么?”、“找到屏幕上的搜索栏”等问题。采用 Any-Resolution(AnyRes)机制将 UI 画面划分成多个子区域,提高对小组件的识别能力。专为移动端(iPhone & Android)优化主要用于手机 UI 的理解。Ferret-UI 的训练数据涵盖了从基本的 UI 元素语义和空间任务到高级推理任务的不同粒度,包括(1)基本 UI 任务:包括引用任务(例如,小部件分类、图标识别、OCR)和定位任务(例如,查找小部件、查找图标、查找文本、小部件列表),旨在使模型能够理解 UI 元素的语义和空间定位(2)高级任务:包括详细描述、对话感知、对话交互和功能推断,旨在让模型能够进行更细致的视觉组件讨论,制定具有特定目标的行动计划,并解释屏幕的一般用途
Ferret-UI建立在 Ferret的基础上,一个擅长在具有不同形状和细节级别的自然图像中进行空间引用和定位的MLLM。它可以解释和交互区域或对象,无论它们被指定为点、框还是任何自由形式的形状。
Ferret-UI 能够执行引用任务(例如,小部件分类、图标识别、OCR),支持灵活的输入格式(点、框、涂鸦),以及定位任务(例如,查找小部件、查找图标、查找文本、小部件列表),这些任务均在移动 UI 屏幕上进行。这些基础任务为模型提供了丰富的视觉和空间知识,使其能够在粗略和精细的层面上区分 UI 类型,例如区分不同的图标或文本元素。这种基础知识对于执行更高级的任务至关重要。Ferret-UI是自给自足的,采用原始屏幕像素作为模型输入。
Ferret-UI-anyres 架构旨在增强模型处理具有不同长宽比的 UI 屏幕的能力。该架构通过以下方式在 Ferret 的基础上进行构建(1)整合“任意分辨率”(anyres):为了灵适应各种屏幕宽高比(2)使用预定义的网格配置将完整图像划分为子图像,以便可以容纳纵向和横向屏幕。根据屏幕的原始宽高比选择两种网格配置:1x2 和 2x1。所有子图像都使用相同的图像编码器单独编码(3)LLM 使用所有具有不同粒度的视觉特征,包括完整图像上下文以及增强的细节。子图像特征除了全局图像特征外,还用于帮助放大细节并提供增强的视觉特征。(4)空间感知视觉采样器:旨在熟练地管理不同稀疏级别的区域形状的连续特征
简单来说,Ferret-UI 让 AI 具备了基础的 UI 理解能力,使其能更精准地解析手机应用界面——不仅能够详细描述和感知对话中的视觉元素,还能够在交互对话中提出以目标为导向的动作,并推断屏幕的整体功能。
Ferret-UI 在大多数 Elementary Task 中优于 Ferret 和 GPT-4V
UI理解任务实例
基本任务数据生成
Elementary tasks旨在教会模型理解UI元素的语义和空间定位。
数据生成的关键步骤如下:
1.UI元素检测:使用UI检测器输出所有检测到的元素,包括每个元素的类型、文本和边界框。
2.任务定义:定义了引用和定位两类共七个任务
(1)引用任务 (Referring Tasks):OCR (光学字符识别)→图标识别 (Icon Recognition)→小部件分类 (Widget Classification)
(2)定位任务 (Grounding Tasks):小部件列表 (Widget Listing)→查找文本 (Find Text)→查找图标 (Find Icon)→查找小部件 (Find Widget)
3.数据生成:针对每个任务,使用GPT-3.5 Turbo扩展基础提示 (base prompt) 以引入任务问题的变体。
(1)对于定位任务,使用所有元素检测来创建一个小部件列表样本,而其余任务则一次关注一个元素
(2)将元素分为图标、文本和非图标/文本小部件,每种类型创建一个引用和一个定位样本
4.数据格式处理:将数据格式化为问答 (QA) 对,以便模型可以学习理解UI屏幕的基本语义和空间信息。
5.过滤:过滤掉在单个屏幕中多次出现的UI元素,以避免歧义
高级任务数据生成
Advanced tasks旨在增强模型的推理能力,使其能够参与关于视觉组件的细致讨论,制定具有特定目标的行动计划,并解释屏幕的一般用途。
数据生成的关键步骤如下:
1.数据选择:选择具有2到15个检测到的UI元素的iPhone屏幕样本。
2.GPT-4 Prompt:将选择的样本及其边界框坐标 (bounding box coordinates) 和提示词发送给GPT-4以创建所需格式的数据。实际图像不被使用。
3.任务定义:定义了以下四个任务:
(1)详细描述 (Detailed Description)
(2)对话感知 (Conversation Perception)
(3)对话交互 (Conversation Interaction)
(4)功能推断 (Function Inference)
4.数据格式处理:将数据格式化为以下形式:
(1)对于详细描述和功能推断,扩展基本提示词以将其与GPT-4响应配对,作为模型训练的输入数据。
(2)对于对话,提供上下文示例以使GPT-4更好地遵循其输出中的边界框格式,并将GPT-4的原始输出解析并转换为正确的Multi-turn对话格式
但它仍然存在不少局限,比如:
只能在手机端使用,无法适应网页、平板、智能电视等多种设备;固定的分辨率限制(336×672 或 672×336),在复杂 UI 画面上表现有限;数据训练主要依赖文本描述,缺少真实 UI 画面的视觉标注,导致泛化能力不足。苹果显然不满足于此,他们在 2025 年推出了升级版 Ferret-UI 2。
03
—
Ferret-UI 2:
迈向全平台智能交互
相比于 Ferret-UI,Ferret-UI 2 实现了更大跨度的升级,它不再是一个“移动 UI 解析器”,而是向着“通用 UI 理解”迈进。
支持多种设备,跨平台解析 UI
Ferret-UI 2 解决了第一个大问题——不再局限于手机,而是扩展到了 iPad、网页(Web UI)、AppleTV(智能电视 UI)等多个平台。
Ferret-UI 2 模型与四个不同平台(iPhone、iPad、网页和 AppleTV)交互以进行 UI 理解的实例
这意味着,无论 UI 画面是来自 移动应用、网页还是智能电视界面,Ferret-UI 2 都能解析并理解。这对于 AI 赋能的 UI 自动化、无障碍交互、跨设备操作来说,是一次重要突破。
比如:你可以对着电脑说“帮我打开3天前的网页浏览历史记录”,AI 就能自动找到网页浏览器里的“历史记录”按钮并执行操作。
采用“自适应高分辨率解析”,提升细节理解
Ferret-UI 采用的 AnyRes(固定分辨率)机制,在复杂 UI 画面上会遇到精度下降的问题。Ferret-UI 2 通过“Adaptive Gridding(自适应网格化)”解决了这一痛点:
Ferret-UI 2 的训练数据不仅仅是文本描述,而是融合了GPT-4o 视觉标注 + Set-of-Mark (SoM) 视觉提示:
之前的 Ferret-UI 主要依赖 GPT-4 生成文本数据,但这种方式缺乏 UI 组件的空间信息。Ferret-UI 2 采用 GPT-4o 结合 SoM 视觉标注,可以让模型真正理解 UI 组件之间的空间关系。用于训练 Ferret-UI 2 的各种平台数据集的摘要
Core-set 数据集是用于训练 Ferret-UI 2 的主要数据集,它结合了来自各种平台类型的数据,包括 iPhone, Android, iPad, Webpage 和 AppleTV。
数据收集流程的关键步骤包括:
1.原始注释收集 (Raw Annotation Collection)
iPhone, iPad 和 AppleTV: 使用人工收集的数据,包括各种使用场景下的截图以及人工标注的小部件边界框坐标和标签。为了节省标注成本,不收集文本注释,而是使用屏幕范围的OCR (光学字符识别) 检测到的文本和边界框来代替文本边界框。OCR的置信度阈值为 0.5。
Webpage: Web数据来自 WebUI 数据集。直接从源HTML视图层次结构树解析所有类型的 UI 小部件的边界框和非图片小部件的文本注释,提供高质量的注释。对于图片小部件,进一步使 OCR检测图片中包含的文本。
Android: Android 数据的截图、边界框和文本注释转换自RICO数据集。与WebUI数据集类似,也执行仅限图片的OCR,以完成图片小部件中缺少的文本注释。
2.数据过滤 (Data Filtering)
过滤掉或缩小越界的边界框,并删除在框过滤后没有剩余边界框的空截图。
由于不打算为 Ferret-UI 2 模型添加多语言支持,因此还会删除文本注释中非 ASCII 字符超过 5% 的截图。
3.标签映射 (Label Mapping)
尽管来自各种来源的标签空间类型不同,但会过滤掉与不太相关的标签 (例如,UI 类型) 相关的边界框,并将剩余标签统一映射到包含 13 个类别的公共标签空间: ‘Checkbox’, ‘Button’, ‘Container’, ‘Dialog’, ‘Icon’, ‘PageControl’, ‘Picture’, ‘SegmentedControl’, ‘Slider’, ‘TabBar’, ‘Text’, ‘TextField’, 和 ‘Toggle’。 由此获得具有原始UI小部件注释的多平台统一数据集。
4.任务数据生成 (Task Data Generation)
(1)基本任务: 包括 3 个引用任务 (OCR, widget classification, tappability) 和 3 个定位任务 (widget listing, find text, find widget)。
(2)高级任务: 使用 GPT-4o 和 Set-of-Mark (SoM) 可视化提示来生成 QA 任务,涵盖 UI 理解的各个方面6。包括
(i) 综合描述:描述屏幕的全局和局部功能,
(ii) 多轮感知 QA:关于 UI 感知能力的多轮问答,
(iii) 多轮交互 QA:关于基于当前屏幕状态的单步和以用户为中心的 UI 交互的多轮问答。
通过以上步骤,Core-set 数据集能够为 Ferret-UI 2 提供高质量的训练数据,从而提升其 UI 理解和交互能力。
这使得 Ferret-UI 2 在UI 组件查找、布局推理、操作预测等任务上的准确率大幅提升,进一步提升了 UI 解析能力。
模型架构
Ferret-UI 2 的模型架直接建立在 Ferret-UI 之上,利用Any-Resolution (AnyRes) 方法来增强引用 (referring) 和定位 (grounding) 能力,使编码器能够捕获不同的图像分辨率。
该架构的关键组件和特点包括:
(1)图像编码器:提取 UI 截图的全局特征(来自低分辨率的概览图像)和局部特征(对应于高分辨率的子图像。
(2)LLM:图像特征被展平并发送到 LLM;除了原始 Ferret-UI 中使用的 Vicuna-13B 之外,还尝试了Gemma-2B 和 Llama3-8B3。
(3)Visual Sampler (视觉采样器):根据用户指令识别并选择相关的 UI 区域。
(4)自适应 N 网格划分 (Adaptive N-gridding):这是一种关键的模型创新,用于提取局部图像特征。
-通过计算最佳网格大小,然后调整大小并编码每个网格的视觉特征。
-确定最佳网格大小 Nw 和 Nh,以最大限度地减少宽高比变化乘以相对像素数变化,同时满足约束条件 Nw + Nh ≤ N,其中 N 是大小限制。
自适应 N 网格划分的关键区别在于,它在预定义的推理成本限制内自动找到最佳网格配置(即最小分辨率失真),既能保留信息,又能实现高效的局部编码。
(5)AnyRes方法集成:类似于 SPHINX、LLaVA-NeXT 和 Monkey 等模型中使用的 "any resolution" 思想,Ferret-UI 2 可以灵活地适应各种屏幕宽高比。Ferret-UI 2 选择与原始屏幕宽高比最匹配的网格配置(例如,1x2 或 2x1)。屏幕被调整大小以适应所选的网格配置,然后分成子图像。所有子图像都使用相同的图像编码器单独编码。
(6)输出:然后,该模型输出用于感知或与 UI 元素交互的定位描述
Ferret-UI 和 Ferret-UI 2 的实践表明,通过结合视觉信息和语言模型,可以显著提升 AI 在理解 UI 元素、用户意图以及执行复杂任务方面的能力
。这为 AI 产品在自动化、辅助功能和用户体验方面开辟了新的可能。
04
—
AutoGLM:
中间界面设计推动精准交互
紧随Ferret-UI 2论文发布之后,国内的智谱AI联合清华大学的团队也发表了AutoGLM——专注于 Web 浏览器和 Android 这两个具有代表性的 GUI 场景,力图成为一种实用的基础代理系统,用于现实世界的 GUI 交互。
AutoGLM 在真实手机上(美团安卓APP)的使用demo,指令为“在瑞幸咖啡(Luckin Coffee)点一杯热椰奶拿铁,半糖”
AutoGLM 在真实网页浏览器上的使用Demo,指令为“请通过 OpenTable 帮我预订 2024 年 10 月 23 日晚上 7:30 在 Megan’s Kitchen 的位子,我们一共 3 个人(我和我的父母)。我的联系方式是 146xxxxxxxx,中国”
AutoGLM强调规划和执行分离,通过设计合适的“中间界面”来控制 GUI,从而分别优化规划的灵活性和执行的准确性。这种设计使得规划器 (Planner) 和执行器 (Grounder) 的能力可以被分别提升。
中间界面
在 GUI (图形用户界面) 控制中,Agent 需要理解用户指令,并在界面上执行相应的操作。传统的端到端 Agent 直接将用户指令映射到具体的屏幕操作,但这种方式存在一些问题:
•规划的灵活性不足:Agent 难以处理复杂的、需要多步骤完成的任务,也难以适应用户意图的变化。
•执行的准确性不足:Agent 容易受到屏幕元素的变化和干扰,导致操作失败。
AutoGLM 的“中间界面设计”旨在解决上述问题,它将 Agent 的决策过程分解为两个阶段:
1.规划:Agent 根据用户指令,生成一个抽象的执行计划,例如“搜索餐厅 -> 选择餐厅 -> 预订座位”。
2.执行:Agent 将抽象的执行计划映射到具体的屏幕操作,例如“点击搜索框 -> 输入餐厅名称 -> 点击搜索按钮”。
Agent 的规划器负责生成这些抽象的操作,而执行器负责将这些操作转化为具体的屏幕坐标。
# Agent with Intermediate Interface Design# Plannerdo(action="Click", element_description="the ‘Submit’ button on the bottom right")# Grounderfind_coordinates_by_instruction("the ‘Submit’ button on the bottom right")# Expected Output: [823,684]为了提升执行的准确性,AutoGLM 还可以利用额外的环境信息,例如屏幕的 XML 结构,来辅助 Grounder 找到正确的屏幕元素。
相比于端到端Agent,“中间界面设计”具有以下优势:
•更好的泛化能力:Agent 可以更好地适应不同的屏幕布局和环境。
•更好的可解释性:Agent 的决策过程更加清晰,易于理解和调试。
•更强的鲁棒性:Agent 能够更好地应对屏幕元素的变化和干扰。
渐进式训练框架
AutoGLM 的渐进式训练框架的核心思想是模仿人类学习的过程,从简单到复杂,逐步增加训练的难度。这是因为 Agent 任务通常具有很大的难度差异,如果一开始就让模型接触过于复杂的任务,会导致训练不稳定,效果不佳。
AutoGLM 的渐进式训练框架主要包含以下几个步骤:
1.任务难度分级:将 Agent 需要完成的任务按照难度进行分级,例如可以分为以下几个阶段:
◦单步任务:例如点击一个按钮。
◦简单多步任务:例如填写一个表单。
◦复杂长程任务:例如完成一个完整的预订流程。
2.课程安排:根据任务的难度,制定一个课程表,决定模型在不同的训练阶段应该学习哪些任务。一般来说,应该先学习简单的任务,再逐步增加难度。
3.模型训练:按照课程表,使用相应的数据集对模型进行训练。在训练过程中,可以采用强化学习 (RL) 的方法,让 Agent 通过与环境的交互来学习。
AutoGLM 采用了一种可泛化的奖励模型,可以处理各种真实世界的 Agent 任务。奖励模型可以分为两种:
◦结果监督 (Outcome-Supervised RM, ORM):根据任务的最终结果来提供奖励。
◦过程监督 (Process-Supervised RM, PRM):根据 Agent 在执行任务过程中的行为来提供奖励。
4.难度自适应调整:根据 Agent 在训练过程中的表现,动态调整课程表,例如如果 Agent 在某个阶段表现良好,可以提前进入下一个阶段;如果表现不佳,可以放慢学习的节奏。
AutoGLM给我们的一个重要启发是:在设计复杂任务的AI Agent时,可以将任务分解为更小的、可管理的部分,并定义清晰的接口,从而降低开发的复杂性,提升系统的灵活性和可维护性。
例如,在设计一个自动化的客户服务机器人时,可以将对话流程分解为“理解用户意图”、“查询相关信息”和“生成回复”三个模块,每个模块通过定义良好的 API 进行通信。
这种设计可以借鉴微服务架构的思想,将大型的 AI 系统拆分为多个独立的服务,每个服务负责特定的功能,从而提升系统的可扩展性和容错性。
05
—
AppAgent X:
从低级动作到高级操作的进化
LLM 智能体在实际应用中仍然存在效率问题,其方法依赖逐步推理,即每执行一个操作前,模型都要 “思考” 下一步该做什么。例如,在执行简单的搜索任务时,智能体需要分别推理 “点击搜索框” → “输入关键词” → “点击搜索按钮”,即便是简单的步骤,也需要耗费额外的计算资源。这种模式虽然提高了通用性,但在应对大量重复性任务时,效率却远不如传统的 RPA。
那么,是否可以让智能智能体既保留推理能力,能够灵活应对新任务,同时又能像 RPA 一样高效执行常见任务?
AppAgentX 的进化机制通过将一系列低级别动作抽象成一个高级别动作,从而简化了任务执行过程,提高了 GUI 代理的效率和智能化水平
近日,西湖大学AGI 实验室提出了一种可进化的GUI智能体框架 ——AppAgent X。这是 GUI 智能体先驱工作 AppAgent 的最新版本,它让 LLM 驱动的智能体能够从自身的操作经验中学习,不断进化更高效的行为模式。简单来说,AppAgent X 让智能体能够在任务执行过程中识别重复性操作模式,并将一系列低层级的操作自动归纳为更高级的 “一键” 操作。例如,智能体可以学习到 “搜索” 这一任务模式,并自动将其抽象为一个高层级操作,而无需每次都推理具体步骤。这意味着,智能体在使用过程中会变得越来越高效,越用越聪明。
核心思想
AppAgentX 的核心思想是:让 AI Agent像人类一样,通过不断学习和进化来提高操作智能手机 App 的效率和智能性。它通过以下两个关键机制来实现这一目标:
1.记忆机制 (Memory Mechanism): 记录Agent与App交互的历史,为后续的决策提供上下文信息。
2.动作演化 (Action Evolution): 从重复的低级动作序列中学习,抽象出高级动作,从而减少操作步骤,提高效率。
整体架构
AppAgentX 的架构可以分为三个主要模块:
1.感知模块 (Perception): 负责观察当前 App 的界面状态。
◦输入:实时截图和UI元素信息 (例如,位置、文本)。
◦技术:多模态大型语言模型用于处理图像和文本信息;OmniParser用于检测 UI 元素。
2.推理模块 (Reasoning): 负责思考下一步应该执行什么动作。
◦输入:感知模块的输出、记忆模块中的历史信息、任务目标。
◦技术:大型语言模型用于理解任务目标、分析界面状态、推理下一步动作;记忆机制用于提供上下文信息,帮助 LLM 做出更明智的决策。
关于记忆机制>>>
AppAgentX 将 UI 交互建模为一系列页面转换 (Page Transitions)。每个 UI 页面被表示为一个页面节点 (Page Node),包含以下信息:
▪页面描述 (Page Description): UI 页面的文本描述。
▪元素列表 (Element List): 页面上所有 UI 元素的信息 (例如,位置、文本、类型)。
Agent的交互历史被存储为一个链式结构 (Chain),记录了页面节点之间的转换。
通过比较视觉嵌入 (Visual Embeddings),AppAgentX 能够将当前页面上的 UI 元素与记忆中的元素进行匹配,从而找到相关的历史信息
3.执行模块 (Function Call/Action Execution): 负责执行推理模块选择的动作。
◦动作空间:AppAgentX 定义了一组基本的低级别动作,例如点击 (tap)、滑动 (swipe)、文本输入 (text) 等。
◦动作演化:AppAgentX 能够学习并演化出高级动作,例如 "搜索 (Search)",从而减少操作步骤。
关于动作演化>>>
AppAgentX 通过抽象 (Abstraction) 一系列低级别动作来组成高级别动作。
例如,将 "点击搜索框 + 输入关键词 + 点击搜索按钮" 抽象为 "搜索 (Search)" 动作。
扩展动作空间 (Expanded Action Space): AppAgentX 的动作空间不仅包含基本的低级别动作,还包含演化出的高级别动作。
在执行任务时,AppAgentX 会优先考虑使用高级别动作,从而减少操作步骤,提高效率。
06
—
发散思考:AI交互革命下的机会
通过 Ferret-UI 系列、AutoGLM 与 AppAgent X 的案例,我们看到多模态大模型正在重构传统人机交互模式。关键启示包括
✅ 1. AI交互范式重塑,从“输入式”到“操作式”的跃迁
未来的智能助手不再只是“问答”,而是能直接操作界面完成任务,从个人助手到企业级流程自动化,都将迎来交互革命。
过去几十年的交互范式,基本都是用户→操作界面→完成任务,无论是鼠标、触屏还是语音输入,本质上用户都在手动操控界面。但多模态大模型结合UI理解技术,正在推动从“输入式”到“操作式”交互”的跨越。
比如:
️ 我说:“帮我在滴滴预约一辆车到机场”,AI不再停留在“给我一堆选项”,而是能自动完成打开App、输入目的地、选择车辆、下单这一系列操作。️ 我输入:“下载最新销售数据,并生成本月业务分析报告”,AI可以在企业BI系统中完成数据提取、生成图表、整理PPT。我指令:“晚上7点和家人视频”,AI帮你打开微信、找到家人群、发起视频通话。✨ 产品机会方向:智能助手的“任务流”革命
这将带来一系列产品创新机会,例如:
个人智能助手:从“指令执行”升级为“端到端事务完成”(如跨App完成查资料、订机票、打车等复杂任务)。企业办公助手:帮助员工在CRM、ERP、OA等复杂系统上跨模块、跨平台完成操作(如生成报告、调取数据、填写表单)。家庭IoT助手:比如智能家居系统,不再是“打开空调、关灯”这种简单指令,而是“我回家了”,AI自动完成开灯、调温、播放音乐、打开窗帘的一整套操作。✅ 2. “多模态+多智能体”的多角色协作新模式
过去大多数AI助手都是单智能体,它“一个人干到底”,遇到复杂任务就容易“死循环”或失败。但我们看到 AutoGLM(规划层+执行层) 的拆解思路,以及 AppAgent X(动作演化+记忆机制),正在启示我们:未来的智能体将走向“多智能体协同”,让“专精智能体”完成各自擅长的任务,彼此配合。
✨ 产品机会方向:多智能体协同平台
企业流程自动化(RPA升级版):让多Agent协同工作,实现更复杂、更灵活的企业业务流程自动化。多Agent SaaS平台:支持自定义“任务编排”,让企业像搭积木一样配置自己的智能体流程。行业专属智能体系统:比如医疗诊断、金融投顾、供应链优化,让多个专属智能体共同完成复杂决策与操作。✅ 3. 让AI“越用越聪明”,从执行者进化为“专家顾问”
目前大多数AI代理还停留在“机械执行层面”,但 AppAgent X 提出的 “动作演化与记忆机制”,启发我们去思考更进一步的能力升级:AI不仅要执行任务,还要逐渐学会“优化任务”和“提出建议”。
场景举例:智能销售助手
传统助手:按指令生成报价单未来助手:生成报价单后,分析客户历史成交数据,提出“可以加个折扣提高成交率”的建议✨ 产品机会方向:AI专家顾问平台
营销顾问型AI:不仅输出广告方案,还会给出目标人群的细化推荐策略。销售智能助手:从生成报价单到分析客户行为,主动提出成交策略。企业运营顾问:从库存、采购、财务等数据中洞察异常,提供运营建议。真正的智能交互,是让它“看懂”世界,像人一样完成任务,甚至能比人完成得更快、更好!
你,准备好迎接这场交互革命了吗?
来源:正正杂说