当手机用上纯视觉的“自动驾驶”

摘要:我们之前的文章已经讨论过,24 年上半年手机AI产品聚焦于文档总结、语音记录、图片修改方面的功能。我们可以统称它们为“应用级AI”,共性是都聚焦于垂类的内容生成的方向。

今年以来,各家手机厂商的新机发布清一色地将“AI手机”放在最突出的宣传位置,突出一个“不管怎么样,反正AI是趋势我就先做了”。


我们之前的文章已经讨论过,24 年上半年手机AI产品聚焦于文档总结、语音记录、图片修改方面的功能。我们可以统称它们为“应用级AI”,共性是都聚焦于垂类的内容生成的方向。


很显然,消费者对这些功能已经是见怪不怪了,并且我们发现通过安装诸如豆包、通义千问等 app 的方式也能实现和所谓AI手机一样甚至更强的效果。AI 手机这个名词也逐渐“沦为虚名”。


归根结底,缺乏差异化的产品竞争力,是此前手机 AI 的“原罪”。

这种尴尬的情况就和几年前追捧的卫星通讯技术一样:虽然技术上很先进,但是应用场景过于狭窄,并且还有基站通讯这么一个便宜、成熟的方案在,消费者显然不会选择为它买单。


那么手机端侧 AI 该怎么做,才能和云端产品形成差异化呢?


10月份的手机新品季,厂商交出的答卷,是 AI 智能体。


那么这些五花八门的 AI 智能体到底怎么样?我们通过研究和体验发现,它们似乎是真的有点东西。

1向更立体、更主动的 AI 智能体前进

当前端侧算力已经不再是制约 AI 手机发展的主要矛盾。

今年高通、联发科对芯片架构进行了大刀阔斧式地改进,再加之台积电第二代 3nm 技术加持,今年移动端旗舰芯片的端侧算力得到了大幅加强,能耗表现也极为出色。例如今年高通发布的骁龙 8 至尊版性能可媲美高性能 PC ,综合算力已经被拉升至 80 TOPS水平。这一代芯片的提升超越前代所有的提升,用高通自己的话叫作“把牙膏挤爆”。

硬件性能的提升,带来的就是手机端侧AI理解能力的提升。

但是,单单提升理解能力还不够。光有聪明的大脑,没有足够的数据供 AI 智能体学习,最后也是“巧妇难为无米之炊”。如何获取足够的数据,这就需要在系统和软件方面做好工作,而这就是今年各手机厂商 AI 智能体重点发力的方向。

vivo 今年的智能体叫做蓝心小V。蓝心小V一个令人印象深刻的功能,就是它能够根据用户的订座指令,vivo 称之为PhoneGPT产品。用户只要下达一个例如“帮我在某餐厅订一个周三晚5:30的十人桌”的指令,它就可以主动打开大众点评、搜索店铺、查找店铺电话、拨打电话并与餐厅工作人员自主对话,通过自主规划、自主执行这一系列操作,最终完成订座任务。


荣耀推出了 MagicOS 9.0 系统和端侧智能体 yoyo。在发布会上,荣耀CEO赵明对YOYO说了一句“帮我点2000杯喝的,适合现在喝的”,手机即刻实现了打开外面软件、添加了2000杯咖啡最终付款下单的操作。基于新的yoyo助手,用户能够实现更多的“一句话操作”手机的功能。


小米今年升级了超级小爱,强调“记一下”功能,在任何需要填写收货地址、护照号码等文本信息的文本框中,超级小爱都能够自动填写。超级小爱还能够感知用户的习惯,根据环境主动调节AIoT设备运行状态,例如降温了它会主动帮你开空调;用户要出门了,会提前备车等等。得益超级小爱,小米主打的“人车家”三位一体的生态则更加生动立体了。


通过以上一部分案例,我们能够很明显地感受到,当前手机的 AI 应用,已经开始往跨应用、跨平台、跨设备的方向演变,《钢铁侠》电影中“贾维斯”助手的形态似乎已然具备。

与应用级生成式 AI 相比,AI 智能体最大的区别,就是从被动执行任务变成主动执行任务。

从技术角度上来看,要实现上述目标,AI 智能体需要能够时刻感知周围的状态,并且能够主动学习并拆解任务,自主规划每一步应当做什么,形成完整的思维链条。


手机厂商赋予 AI 智能体具有更高的数据获取权限,使得它们能够调用各种软件,实现系统级的“手机代操作”,这是一种交互层面的创新革命。


在我们使用手机完成点外卖、打车、阅读文章等行为的时候,手机扮演的是工具、媒介的角色,完成我们需求的则是各个独立的 app 。而 app 开发商之间往往是互相独立的,软件的开发规则、开发语言也各不相同。


因此 AI 智能体实现多种交互功能最关键的难点不在于技术,而在于如何调度整个手机的生态环境。这就好比要一次性统一非洲大陆上3000多个语言文化都不相同的部落一样,手机厂商统一协调各家软件开发厂商,也并非一日之功。

那么当前 AI 智能体是如何实现“掌控”那么多应用的呢?答案是它们都使用了“纯视觉”的方案。

2一力破万法,绝对的兼容性

所谓“纯视觉”并不是指调用手机的摄像头,而是指大模型能够实时学习我们手机屏幕上的画面信息

这就和真人操作手机的方法类似,我们操作手机的时候也是用眼睛获取看到的画面,然后在大脑中理解各个交互按钮的功能。视觉大模型同样能够自己学习理解,然后像人一样点击屏幕实现与app之间的交互。

纯视觉方案最重要的优势,就是它们不需要依赖任何app软件的底层支持,只要是在手机上运行的 app,视觉大模型就能像人类一样去使用它们。

国内技术团队对于纯视觉的技术路线其实早有布局。


腾讯与德州大学达拉斯分校在去年12月推出了一个名为AppAgent的项目,AppAgent采用了基于 LLM 的新型多模态代理框架,通过模仿类似人类的交互,例如点击和滑动,绕过了对系统后端访问的需求,扩大了适用性。今年2月阿里巴巴联合北交大推出了手机AI智能体框架Mobile-Agent,完全摒弃了对于后端数据访问的需求,用户利用视觉指示即可完成操作。


而手机厂商中,最早提出视觉 AI 智能体方案的公司则是苹果。


苹果在今年4月份就发表了一篇论文《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》。在这篇论文中,苹果研究出了一种名为 Ferret-UI 的大模型,它可以对图标、文本和小部件列表等基本UI元素进行编译,区分出屏幕上各种图标或文本元素的功能,它还支持自然语言对话,并且能够感知对话中所讨论的UI元素是什么。


简单来说, Ferret-UI 就是一个专用于手机 GUI 屏幕视觉识别的工具。


前段时间大火的,由智谱清言发布的 AutoGLM ,同样也是用了纯视觉的方案来实现端侧手机模型信息输入的。

AutoGLM 相比苹果更进一步的是,它不仅能够学习手机屏幕上的信息,还能模拟用户点击屏幕的手机操作助手,完全不依赖APP后台API实现交互。

荣耀 yoyo 智能体的自动驾驶大概率也采用的是类似 AutoGLM 的思路。或者说,可能荣耀底层用的就是智谱的 AutoGLM ?

近期,在PC行业中,智能体产品也如雨后春笋般不断涌现出来。

先是微软针对B端客户,发布的十个商用智能体,覆盖销售、服务、财务、供应链的工作,帮助员工执行和协调业务流程,销量大爆。


再是OpenAI 的死对头 Anthropic 优先发布了基于 Claude 3.5 的全新产品——Computer Use,专用于电脑端,可以实现“像人一样操作电脑”(先看屏幕,再使用鼠标操作,再通过思考,重复以上步骤直到完成输入的目的),大大减少了人力操作负担。


上述种种方案,采用的都是纯视觉的策略来绕过艰巨而又复杂的“生态整合”,并且它们在自家的垂类领域(例如微软做办公方面的)或者说对于用户高频使用的软件而言(微信、美团、淘宝等),做了深度的优化,因此获得了较强的市场反馈。

3兼容之外,纯视觉方案似乎还差点意思

尽管当前纯视觉方案绕过了底层数据接口的阻碍,实现了产品的“超前发布”,但我们不能忽视的是,纯视觉方案依然是存在很多根本性不足的。

首先是技术路线比较朴素。

2017 年苹果收购了一家做自动化任务的第三方 app Workflow,并将其打造成了自有的应用软件,也就是后来的快捷指令。2019 年苹果在 iOS 13中将快捷指令应用深度集成进入系统,与自家的原生应用无缝协作,很多第三方 app 也加入了这个生态,例如 Spotify、网易云等软件就内置了“通过Siri设置快捷指令”的功能。


除苹果外,安卓阵营也有小米有“自动任务”应用、三星有“捷径”应用等,相信已经有不少人体验当前到公司后软件自动打卡了。


在游戏行业,射击类游戏也出现了一些新型的 AI 外挂,它们通过算法检测画面中的人物模型,计算鼠标需要移动的距离,最后通过硬件脚本移动鼠标完成射击。完全模仿人类操作,不修改游戏内存数据,因此很难被检测出来。


回过头来看,我们发现纯视觉方案其实采用也是类似的“脚本化”思维,即功能更全的“快捷指令”:一步一步按部就班地完成工作。

例如荣耀发布会上,yoyo 智能体点2000杯咖啡的操作,是在添加购物车的界面按 2000 次加号……

这种“脚本化”思维,使得智能体深度依赖对传统的触控、指滑交互的模仿,而模拟交互在当前手机上是存在局限性的。

对于苹果iOS系统而言,模拟交互需要采用 Accessibility 或其他认证的开发者工具,具有严格的限制,突破苹果规范的app将无法被上架。


对于相对开放的安卓而言,模拟操作则必须依靠无障碍服务来实现,无障碍服务同样存在操作、权限、隐私等方面的诸多限制。例如频繁点击一个未知的按钮,则会触发保护机制。


这些系统底层的基本限制,大大限制了纯视觉方案的功能边界。


以智谱AutoGLM为例,目前在内测阶段只可以适配微信、淘宝、美团、小红书、大众点评、12306、携程、高德地图共8款应用,各 APP 可支持的功能也比较少。


模拟交互导致用户体验流畅度不佳。在安卓12及以上版本,安卓无障碍服务会被Google进行了限制,在后台会被监控,会消耗较多的系统资源(如CPU和内存),导致设备性能下降,直接的反映在客户端的状况就是功耗上升、帧数下降、运行卡顿。

受制于端侧算力的问题,当前的视觉大模型在执行每一步操作的时候都需要大概经历几秒的思考时间,这显然会影响用户的实际使用体验。并且一旦一长串的操作链中途出错,大模型就会很容易进入一个完全“未知的”界面之中。

纯视觉方案最关键不足在于执行过程不够直接。

试想一下,AI 智能体最理想的交互流程应当是端到端的指令执行“用户只需要接收输出的正确结果,在成功率无限接近100%的情况下,用户是不需要花费精力去监控过程。


但在当前视觉 AI 智能体的执行过程中,用户必须看着手机自己操作,无法操控手机,特别在执行速度很慢的情况下,用户同样会觉得视觉方案还不如自己操作来得方便,这样的体验就显得比较差了。


归根结底,UI 界面是针对真人用户的界面设计,因此 app 上很多滚动屏幕、弹窗、按钮布局等对于 AI 来说是冗余且复杂的,还会加剧智能体的学习难度。


以上的所有不足其实最终导向的共性结果只有一个: 纯视觉的 AI 智能体还无法带来效率上真正的提升。

4尾声

正如我们开头所言,提升手机AI效率的关键,还是要攻克手机软件生态的调度难题。而放眼全球,能够打通手机软件、硬件、系统三大生态的公司只有三家:华为、苹果和谷歌。


华为今年向业界彰显了强大的生态号召能力。10月华为推出了纯血鸿蒙 NEXT 系统,并联合全球开发者完成了 1.5 万个原生应用及原服务的鸿蒙代码重构。与此同时,华为还致力于推动基于“意图框架”的新开发模式,可能用于 AI 智能体调用数据接口。


苹果作为 iOS 生态的绝对主导,闭源则保证了苹果对于软件开发生态绝对的能力和权限;谷歌的优势则不在于系统和硬件,而在于它性能强大的 Gemini 模型。


我们仍然认为,纯视觉方案是手机端 AI 智能体形态的开胃前菜,真正功能端应用上的爆发,还必须等待真正能够统一调度应用间数据的“后端 AI 智能体”。


但是,对于华为、苹果和谷歌而言,作为手机系统的“卖铲人”,AI 智能体赛道却俨然已是一道“厚雪长坡”。


本文对当前产品的分析描述都是基于当前测试版本,不代表产品上线后的最终功能、技术路线形态。

来源:新财富杂志

相关推荐