当手机用上纯视觉的“自动驾驶”

摘要：我们之前的文章已经讨论过，24 年上半年手机AI产品聚焦于文档总结、语音记录、图片修改方面的功能。我们可以统称它们为“应用级AI”，共性是都聚焦于垂类的内容生成的方向。

今年以来，各家手机厂商的新机发布清一色地将“AI手机”放在最突出的宣传位置，突出一个“不管怎么样，反正AI是趋势我就先做了”。

我们之前的文章已经讨论过，24 年上半年手机AI产品聚焦于文档总结、语音记录、图片修改方面的功能。我们可以统称它们为“应用级AI”，共性是都聚焦于垂类的内容生成的方向。

很显然，消费者对这些功能已经是见怪不怪了，并且我们发现通过安装诸如豆包、通义千问等 app 的方式也能实现和所谓AI手机一样甚至更强的效果。AI 手机这个名词也逐渐“沦为虚名”。

归根结底，缺乏差异化的产品竞争力，是此前手机 AI 的“原罪”。

这种尴尬的情况就和几年前追捧的卫星通讯技术一样：虽然技术上很先进，但是应用场景过于狭窄，并且还有基站通讯这么一个便宜、成熟的方案在，消费者显然不会选择为它买单。

那么手机端侧 AI 该怎么做，才能和云端产品形成差异化呢？

10月份的手机新品季，厂商交出的答卷，是 AI 智能体。

那么这些五花八门的 AI 智能体到底怎么样？我们通过研究和体验发现，它们似乎是真的有点东西。

1向更立体、更主动的 AI 智能体前进

当前端侧算力已经不再是制约 AI 手机发展的主要矛盾。

今年高通、联发科对芯片架构进行了大刀阔斧式地改进，再加之台积电第二代 3nm 技术加持，今年移动端旗舰芯片的端侧算力得到了大幅加强，能耗表现也极为出色。例如今年高通发布的骁龙 8 至尊版性能可媲美高性能 PC ，综合算力已经被拉升至 80 TOPS水平。这一代芯片的提升超越前代所有的提升，用高通自己的话叫作“把牙膏挤爆”。

硬件性能的提升，带来的就是手机端侧AI理解能力的提升。

但是，单单提升理解能力还不够。光有聪明的大脑，没有足够的数据供 AI 智能体学习，最后也是“巧妇难为无米之炊”。如何获取足够的数据，这就需要在系统和软件方面做好工作，而这就是今年各手机厂商 AI 智能体重点发力的方向。

vivo 今年的智能体叫做蓝心小V。蓝心小V一个令人印象深刻的功能，就是它能够根据用户的订座指令，vivo 称之为PhoneGPT产品。用户只要下达一个例如“帮我在某餐厅订一个周三晚5：30的十人桌”的指令，它就可以主动打开大众点评、搜索店铺、查找店铺电话、拨打电话并与餐厅工作人员自主对话，通过自主规划、自主执行这一系列操作，最终完成订座任务。

荣耀推出了 MagicOS 9.0 系统和端侧智能体 yoyo。在发布会上，荣耀CEO赵明对YOYO说了一句“帮我点2000杯喝的，适合现在喝的”，手机即刻实现了打开外面软件、添加了2000杯咖啡最终付款下单的操作。基于新的yoyo助手，用户能够实现更多的“一句话操作”手机的功能。

小米今年升级了超级小爱，强调“记一下”功能，在任何需要填写收货地址、护照号码等文本信息的文本框中，超级小爱都能够自动填写。超级小爱还能够感知用户的习惯，根据环境主动调节AIoT设备运行状态，例如降温了它会主动帮你开空调；用户要出门了，会提前备车等等。得益超级小爱，小米主打的“人车家”三位一体的生态则更加生动立体了。

通过以上一部分案例，我们能够很明显地感受到，当前手机的 AI 应用，已经开始往跨应用、跨平台、跨设备的方向演变，《钢铁侠》电影中“贾维斯”助手的形态似乎已然具备。

与应用级生成式 AI 相比，AI 智能体最大的区别，就是从被动执行任务变成主动执行任务。

从技术角度上来看，要实现上述目标，AI 智能体需要能够时刻感知周围的状态，并且能够主动学习并拆解任务，自主规划每一步应当做什么，形成完整的思维链条。

手机厂商赋予 AI 智能体具有更高的数据获取权限，使得它们能够调用各种软件，实现系统级的“手机代操作”，这是一种交互层面的创新革命。

在我们使用手机完成点外卖、打车、阅读文章等行为的时候，手机扮演的是工具、媒介的角色，完成我们需求的则是各个独立的 app 。而 app 开发商之间往往是互相独立的，软件的开发规则、开发语言也各不相同。

因此 AI 智能体实现多种交互功能最关键的难点不在于技术，而在于如何调度整个手机的生态环境。这就好比要一次性统一非洲大陆上3000多个语言文化都不相同的部落一样，手机厂商统一协调各家软件开发厂商，也并非一日之功。

那么当前 AI 智能体是如何实现“掌控”那么多应用的呢？答案是它们都使用了“纯视觉”的方案。

2一力破万法，绝对的兼容性

所谓“纯视觉”并不是指调用手机的摄像头，而是指大模型能够实时学习我们手机屏幕上的画面信息。

这就和真人操作手机的方法类似，我们操作手机的时候也是用眼睛获取看到的画面，然后在大脑中理解各个交互按钮的功能。视觉大模型同样能够自己学习理解，然后像人一样点击屏幕实现与app之间的交互。

纯视觉方案最重要的优势，就是它们不需要依赖任何app软件的底层支持，只要是在手机上运行的 app，视觉大模型就能像人类一样去使用它们。

国内技术团队对于纯视觉的技术路线其实早有布局。

腾讯与德州大学达拉斯分校在去年12月推出了一个名为AppAgent的项目，AppAgent采用了基于 LLM 的新型多模态代理框架，通过模仿类似人类的交互，例如点击和滑动，绕过了对系统后端访问的需求，扩大了适用性。今年2月阿里巴巴联合北交大推出了手机AI智能体框架Mobile-Agent，完全摒弃了对于后端数据访问的需求，用户利用视觉指示即可完成操作。

而手机厂商中，最早提出视觉 AI 智能体方案的公司则是苹果。

苹果在今年4月份就发表了一篇论文《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》。在这篇论文中，苹果研究出了一种名为 Ferret-UI 的大模型，它可以对图标、文本和小部件列表等基本UI元素进行编译，区分出屏幕上各种图标或文本元素的功能，它还支持自然语言对话，并且能够感知对话中所讨论的UI元素是什么。

简单来说， Ferret-UI 就是一个专用于手机 GUI 屏幕视觉识别的工具。

前段时间大火的，由智谱清言发布的 AutoGLM ，同样也是用了纯视觉的方案来实现端侧手机模型信息输入的。

AutoGLM 相比苹果更进一步的是，它不仅能够学习手机屏幕上的信息，还能模拟用户点击屏幕的手机操作助手，完全不依赖APP后台API实现交互。

荣耀 yoyo 智能体的自动驾驶大概率也采用的是类似 AutoGLM 的思路。或者说，可能荣耀底层用的就是智谱的 AutoGLM ？

近期，在PC行业中，智能体产品也如雨后春笋般不断涌现出来。

先是微软针对B端客户，发布的十个商用智能体，覆盖销售、服务、财务、供应链的工作，帮助员工执行和协调业务流程，销量大爆。

再是OpenAI 的死对头 Anthropic 优先发布了基于 Claude 3.5 的全新产品——Computer Use，专用于电脑端，可以实现“像人一样操作电脑”（先看屏幕，再使用鼠标操作，再通过思考，重复以上步骤直到完成输入的目的），大大减少了人力操作负担。

上述种种方案，采用的都是纯视觉的策略来绕过艰巨而又复杂的“生态整合”，并且它们在自家的垂类领域（例如微软做办公方面的）或者说对于用户高频使用的软件而言（微信、美团、淘宝等），做了深度的优化，因此获得了较强的市场反馈。

3兼容之外，纯视觉方案似乎还差点意思

尽管当前纯视觉方案绕过了底层数据接口的阻碍，实现了产品的“超前发布”，但我们不能忽视的是，纯视觉方案依然是存在很多根本性不足的。

首先是技术路线比较朴素。

2017 年苹果收购了一家做自动化任务的第三方 app Workflow，并将其打造成了自有的应用软件，也就是后来的快捷指令。2019 年苹果在 iOS 13中将快捷指令应用深度集成进入系统，与自家的原生应用无缝协作，很多第三方 app 也加入了这个生态，例如 Spotify、网易云等软件就内置了“通过Siri设置快捷指令”的功能。

除苹果外，安卓阵营也有小米有“自动任务”应用、三星有“捷径”应用等，相信已经有不少人体验当前到公司后软件自动打卡了。

在游戏行业，射击类游戏也出现了一些新型的 AI 外挂，它们通过算法检测画面中的人物模型，计算鼠标需要移动的距离，最后通过硬件脚本移动鼠标完成射击。完全模仿人类操作，不修改游戏内存数据，因此很难被检测出来。

回过头来看，我们发现纯视觉方案其实采用也是类似的“脚本化”思维，即功能更全的“快捷指令”：一步一步按部就班地完成工作。

例如荣耀发布会上，yoyo 智能体点2000杯咖啡的操作，是在添加购物车的界面按 2000 次加号……

这种“脚本化”思维，使得智能体深度依赖对传统的触控、指滑交互的模仿，而模拟交互在当前手机上是存在局限性的。

对于苹果iOS系统而言，模拟交互需要采用 Accessibility 或其他认证的开发者工具，具有严格的限制，突破苹果规范的app将无法被上架。

对于相对开放的安卓而言，模拟操作则必须依靠无障碍服务来实现，无障碍服务同样存在操作、权限、隐私等方面的诸多限制。例如频繁点击一个未知的按钮，则会触发保护机制。

这些系统底层的基本限制，大大限制了纯视觉方案的功能边界。

以智谱AutoGLM为例，目前在内测阶段只可以适配微信、淘宝、美团、小红书、大众点评、12306、携程、高德地图共8款应用，各 APP 可支持的功能也比较少。