摘要:最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。
机器之心原创
编辑:泽南、杜伟
我们需要的是「真正解放双手的智能体」。最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。
作为新一代 AI 智能体,它跨过了大模型的次元壁,能够像人一样直接操纵电子设备,根据你给出的自然语音指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。大家都在自发探索智能体的使用方法,比如有人已经在用智能体自动代肝崩铁每日任务了。
除了打游戏,在工作环境中智能体还可以接管很多日常事务,比如撰写邮件、安排会议、整理文件等等,据说从科研到写代码样样都行。
有人表示,智能体工具的出现标志着全新人机交互范式踏出了新的一步。
没过多久,国内公司就拿出了对标的产品,而且还更进一步,一次性实现了手机、PC、AI 原生硬件的覆盖。
今天上午,智谱 Agent 宣布升级,开放「百万内测」申请,翻开了人机交互体验的新一页。
这是智谱第一个产品化的智能体 Agent,可以做到让 AI 通过语音直接操纵硬件设备,还能跨不同 App 全局操作。
在发布会现场,智谱 CEO 张鹏展示了一番智能体的能力。让 Agent 与现场观众建面对面群聊。
发一个总计两万块钱的红包。
AI 发的红包瞬间就抢空了。不得不说谢谢张总,谢谢 AI Agent。
深入手机、PC,能自己做主
智谱智能体的手机版 AutoGLM 与电脑版 GLM-PC,内测阶段覆盖部分常用的 App 及应用。AutoGLM 支持包括微信、抖音、小红书、微博等社交平台、美团、饿了么、等美食平台、淘宝、京东、拼多多等购物平台、高德和百度地图等出行平台、以及 12306、去哪儿、携程等旅游订票平台。
用户打开 AutoGLM 后,只需要动动嘴(当然也支持文字输入),就能让智能体接管自己的手机,并在上面这些 App 上自动执行任何指令任务,比如在微信上对某个公众号的文章进行摘要总结、在高德地图上为你规划出行路线,等等。
此次,智谱给 AutoGLM 进行了一系列能力升级。基于这些新能力,我们看到了一些新玩法。
一是「更长」,即 AutoGLM 可以理解、遵循并自主完成超长、复杂的指令,支持超过 50 步的无打断连贯操作。在长任务上执行的速度比人类实操还要快。
二是「跨 App」,即 AutoGLM 在更强大泛化能力和思维链的加持下,支持复杂任务的跨 App 操作。有了这个智能体,用户与应用之间多了一个可以自动执行的调度层,省去了在不同 App 之间来回切换的麻烦,实现了这些 App 之间的协同操作。
我们以不同 App 之间的信息分享为例,命令 AutoGLM「在小红书上种草几款单反相机,然后分享到微信的『编辑部之插科打诨』群」,操作很丝滑。
再比如跨不同 App 购物,AutoGLM 也能一气呵成。
更多新玩法进一步拓展了 AutoGLM 的功能,包括「短口令」,类似于手机上的快捷指令。在这种模式下,AutoGLM 可以一键存储用户自定义的快捷短口令,在触发该指令后自动发起并执行关联长任务。
更有意思的还有「开盲盒」,AutoGLM 会默认跳过对话步骤,对于用户发出的模糊指令,让 AI 主动帮你完成选择。过程中只有在涉及重要操作(比如支付)时才会进行二次确认。
AutoGLM 的自主执行能力还扩展到了网页端。智谱在浏览器(Google Chrome 和 Microsoft Edge)的智谱清言插件上提供了 AutoGLM-Web 功能。该功能适配了知乎、微博、X 和豆瓣等社媒网站,百度、谷歌和必应等搜索引擎,百度学术、谷歌学术和 arXiv 等学术网站,以及 GitHub 代码托管网站和资讯类网站。
在这些网站上,智能体遵循用户指令,可以自动执行站内搜索、内容总结、生成 arXiv 日报、搭建 GitHub 仓库、在微博超话签到等个性化功能,可玩性不错。如下所示,我们可以让它自动帮我们在微博分享新鲜事。
在桌面端,智谱同样推出了像人一样操作计算机软件的应用 GLM-PC,它基于通用视觉大模型 CogAgent 的理解与任务规划能力,让用户通过简单的一句话指令执行复杂任务。
比如查询并总结网页上的信息,并通过微信发送给别人:
在淘宝上买 XL 码的羽绒服并购买:
即将上线的隐形屏幕功能更加科幻。AI 可以在不打扰你的情况下提供帮助,解放屏幕使用权给人,自己在另外一个隐形屏幕上完成工作。
从实现原理来讲,GLM-PC 在充分理解用户指令后对任务进行规划,然后识别电脑界面中的窗口、图形、文字等信息,然后自动操作电脑。另外,这个 AI 助手在使用过程中可以根据页面信息更改计划并自我纠错,从而更好地完成任务。
据介绍,GLM-PC 尤为擅长处理办公场景,可以在微信、飞书、钉钉、腾讯会议等平台执行多样性任务,比如发送信息、预定和参与会议。同时支持浏览器网页搜索以及网页内容的阅读总结、翻译,还能进行多种文档处理,包括下载、发送和总结。
打开并加入飞书会议。
邮件发送会议纪要。
不仅如此,智谱还实现了 GLM-PC 与手机端的联动。用户现在可以在手机上远程向 GLM-PC 发消息,让它自动进行电脑端操作。
最后,智谱在发布会现场表示,要对十个亿级 App 进行免费 Auto 升级。荣耀、华硕、小鹏汽车等大厂,高通、英特尔等硬件、芯片厂商也纷纷站台,介绍了与智谱的合作。
随着端到端、多模态、视频等新能力的大模型出现,大模型已经初步具备了和物理世界互动的能力。
我们能够逐渐想象出山姆·奥特曼口中「前所未有的自然交互」的样子,但眼前能够接触到的很多落地产品,却似乎总是差点意思。这可能是因为想要构建颠覆性的产品,需要的不止是大模型能力,还有对于技术方向的提前预判,以及完整系统的优化。
其实在发展大模型基础技术之外,智谱最近还一直在推进另一件事:构建体系。
我们能够逐渐想象出山姆・奥特曼口中「前所未有的自然交互」的样子,但眼前能够接触到的很多落地产品,却似乎总是差点意思。这可能是因为想要构建颠覆性的产品,需要的不止是大模型能力,还有对于技术方向的提前预判,以及完整系统的优化。
智谱在大模型 Agent 方向上的研究由来已久。自 2023 年 4 月,智谱就陆续提出了 AgentTuning、AgentBench、CogAgent 等大模型智能体工作,今年智谱又连续发布了AutoWebGLM、AutoGLM 等成果。智谱针对 AutoGLM、GLM-PC 的研发工作也经历了一年半以上的时间。
在探索大模型智能体能力边界的过程中,智谱逐渐获得了两个重要的观察。
首先,智能体和推理本质上服从着同大模型训练类似的 Scaling Law。智能体通过和环境交互,模型获得来自环境的反馈监督信号,具有类似的规模扩展效应。这说明,通过扩展计算规模,我们可以持续地提升大模型智能体的表现水平。
在新的 Scaling Law 背后,智谱设计了 WebRL,一个自进化在线课程强化学习算法框架。通过引入大模型特有的自进化演化策略,并利用课程学习实现智能体由易到难进行泛化,并最终借助在线 off-policy 强化学习,AutoGLM 实现了在在线环境中的智能体扩展规律。
其次,智谱进一步的探索发现了 Agent 存在 Emergent Ability,即能力涌现。
10 月发布之初,AutoGLM 尚只能在单个应用、短距离任务上展现能力。然而,随着工程师们进一步训练和规模的扩展,最新版本的 AutoGLM 已初步具备跨应用、长距离任务的胜任水平,甚至能够能遵从复杂指令在从未见过的 App 应用中操作。
其实在发展大模型基础技术之外,智谱最近还一直在推进另一件事:构建体系。
由于多模态大模型的出现,现在的 AI 已经具备了语义理解、屏幕内容解析和行为语义理解等能力。接下来要做的似乎就是找到一种机制,让大模型能够一步一步地解题。
智能体(AI Agent)就是用来执行这样复杂的任务的。它既具有自主性,又能进行环境交互,可以分解复杂任务进行规划,使用专业的模型或外部工具来提升自身能力,还拥有远超大模型本身的记忆能力。
这意味着加入智能体之后,手机这样的设备可以利用相对轻量级的模型,承载起更加复杂的自动化任务。
此前在业内,一些科技大厂、创业公司和手机厂商已在 PC、AI 手机上构建了智能体能力,并获得了不错的效果。但从技术发展的角度来看,这往往是各自产品路线的延伸。智谱提供的解决方案在此基础上还会覆盖汽车、智能眼镜、智能音箱,甚至具身智能的机器人等 AI 原生硬件,体现出了另一种思路。
智谱认为,将来不同的硬件设备都可能由统一体系的 AI 智能体来操作,这样才能实现人机交互的提升。为此,他们也在芯片、应用 App、操作系统 OS 和模型侧进行了提前布局。
包括与芯片、终端厂商持续合作,从硬件底层进行优化,持续优化端侧大模型的能力。在 10 月高通骁龙 8 至尊版发布时,智谱就宣布已联合高通对最新一代端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后,今年的新一代旗舰手机已经可以支持丰富的多模态交互方式,让人们获得更加情境化、个性化的终端侧智能体验。
智谱也和众多手机、电脑厂商合作,在 AI PC、手机端智能助手领域给大模型进行落地。率先亮出 AI 智能体操作手机的荣耀,就在九月份与智谱达成了 AI 大模型技术的战略合作。
本周,智谱还与英特尔、机械革命联合发布了专为程序员设计的 CODE AI 程序员笔记本,预装了基于端侧的智能编程助手。
通过端侧芯片性能优化和端云一体架构,智谱的大模型智能体技术,不久后将出现在越来越多的设备上。
Agent 的尽头是什么?
尽管目前的技术还在初期,但 AI 智能体已经展现出了前景。
再往更深的层次想,过去键盘鼠标、触控屏幕这样物理交互的形式,从 DOS、Windows 再到 iOS、安卓等操作系统,都是为了让人更好地与机器沟通。
大模型正在走一条相反的路,让我们无需花费大量时间去理解各种应用的复杂界面,减少机械的劳动,反过来让机器适应人类。
智谱 CEO 张鹏在发布会上表示:「目前的 Agent 能力更像是在用户和应用、设备之间增加一个智能的调度层。可以看做是大模型通用操作系统 LLM-OS 的一种雏形。这已经对人机交互形式产生极大的影响。更重要的是,我们看到了一种大模型操作系统 LLM-OS 的可能,基于大模型智能能力,有机会实现原生的人机交互。」
来源:爱美小魔仙