今天，AI不仅发了3万元的红包，还能像人一样玩转PC！

摘要：在今天智谱 Agent OpenDay 上，智谱 CEO 张鹏开场便定下基调：“希望 OpenDay 是一个比较轻松、让大家能够享受科技进步的一个场合。”——他所言非虚，AI 甚至都开始发红包了！

整理 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

提问：由 AI 发出的红包，你收到过吗？

在今天智谱 Agent OpenDay 上，智谱 CEO 张鹏开场便定下基调：“希望 OpenDay 是一个比较轻松、让大家能够享受科技进步的一个场合。”——他所言非虚，AI 甚至都开始发红包了！

除了最后输入支付密码的操作，张鹏几乎全程只对着手机动了动嘴（撇开由于现场观众手速太快、导致 AI 根本挤不进群聊、他只好把面对面建群的指令重复了 3 遍的意外“翻车现场”）：

（1）帮我创建一个面对面群聊，数字为 1129，并将群聊名字改成智谱开放日。

（2）帮我在智谱开放日的群聊里发个两万的红包，数量为一百个，名字为"AI 给你发的第一个红包"。

（3）帮我在支付宝发八百八十八个，总额为一万的口令红包。

不仅如此，他还在 PC 端让 AI 群发文件，还给王心凌的微博点赞留言——这些 Live Demo 的背后，是因为智谱上个月刚发布的产品化 Agent「AutoGLM」已发生了全新升级：可理解更长的指令、实现更快的速度、还能跨 App 操作，并从手机走向了与 Web 和 PC 协同！

大模型，让机器得以来适应人

张鹏在演讲中首先提到，AI Agent 是如今非常火的话题，从苹果的 Apple Intelligence、Anthropic 的 Computer Use、谷歌的 Jarvis 再到 OpenAI 即将发布的 Operator，全球科技巨头纷纷布局。

在此背景下，智谱于 10 月份率先开放了 AutoGLM 的内测，受到了非常多的关注和反馈，展现了大模型从对话（Chat）走向操作（Act），从生成式 AI 迈向代理式 AI 的演进趋势，目前申请页面已有超过 100 万的用户访问。

事实上，回顾大模型技术出现之前，其实没有任何方法能实现代替人智能地和机器进行交互。不论是键盘、鼠标还是 dos、图形界面，本质上还是让人来适应机器。而张鹏指出：“大模型正在改变这种互动方式，让机器得以来适应人。”

随着近几年大模型技术的飞速演进，尤其是自然语言、多模态感知、逻辑推理等能力不断取得的技术突破，大模型已经初步具备了模仿人类与物理世界互动的能力。为此，智谱定义了大模型发展的五个阶段，与 OpenAI 有所不同：

随着大模型的智能能力已经从 L1 发展到 L3 甚至更高的水平，更为原生、自然的人机交互体验「Auto 能力」逐渐有望实现，GLM 也因此开始变成 AutoGLM。基于此，智谱最新发布了 Auto 的三个产品：GLM-Phone（AutoGLM）、GLM-Web（AutoGLM）和 GLM-PC（CogAgent）。

手机、Web 和 PC，都「Auto」了

首先是 AutoGLM。根据张鹏介绍，在 10 月份开启内测的版本中，AutoGLM 基本已经能够模拟人类操作手机，如点外卖、朋友圈点赞等，在 AndroidLab 的评测基准中也已超过 GPT-4o 和 Claude-3.5 Sonnet——而全新升级后的 AutoGLM，将挑战更高难度的操作。

更长：升级后的 AutoGLM 可理解超过 50 步的超长复杂指令，并实现连贯自主操作，为人节省更多时间。

更快：在多步、循环任务中，升级后的 AutoGLM 速度表现超过人手动操作。至于单步速度，张鹏透露将在近期做进一步的迭代与优化。

跨 App：升级后的 AutoGLM 将具备 App 思维链，可以跨 App 执行任务。相当于在用户和应用间增加一个执行的调度层，用户将习惯用 AI 自动处理，而不是在多个 App 间来回切换。

基于用户反馈，智谱还给 AutoGLM 做了一些新玩法：短口令，例如用户一句“点咖啡”，Agent 将自动采取对应行动减少超长复杂指令；还有个“随便模式”，即过程中的所有步骤都让 AI 主动帮你决策，直到发送或付款等重要操作时再把选择权重新交回你。

“不仅是手机，Web 端也 Auto 了。”张鹏表示，AutoGLM 开启“全自动”上网新体验，智谱清言插件 AutoGLM-Web 最新上线 AutoGLM 功能，支持知乎、微博、百度搜索、GitHub、谷歌学术等数十个网站「无人驾驶」功能。例如，可以让 AutoGLM-Web 自动完成“在百度搜索芒果tv，打开再见爱人，播放最新一集，发弹幕”的任务，全程没有人的干预。

更为重磅的是，智谱还带来了基于 PC 的自主 Agent：能像人一样操作计算机的 GLM-PC。这也是 GLM 团队面向「无人驾驶」PC 的一次技术探索，其愿景就是：让 AI 像人类一样使用计算机。

例如，下班后你可以用手机给 GLM-PC 发消息，让 GLM-PC 自动进行电脑操作，帮你发送文件：

据悉，GLM-PC 底层模型为智谱自研的多模态模型 CogAgent——这也是世界首个 UI Agent 视觉基座模型。为此，智谱 GLM-PC 技术负责人潘立航分享了关于 CogAgent 技术路线。为了让 AI 脱离计算机的特点、真正像人类一样使用计算机，CogAgent 需要模拟广泛存在于人类交互活动中的“感知、认知、运动”闭环：感知指人类从外部环境获取信息的过程，认知指人类根据外部环境去推理和决策的过程，运动则是指执行决策进而影响环境的过程。

具体来说，从人类模拟感知外部环境的角度出发，CogAgent 需具备视觉感知的能力，能像人一样通过用户界面而非 HTML 来获取信息，适用于任何带有图形用户界面的计算设备；从模拟真人思考的角度出发，CogAgent 需具备逻辑推理的能力，并以自然语言作为推理和决策的媒介，这种方式也方便用户进行检查、控制和干预；从模拟真人交互方式的角度出发，CogAgent 还需能够完成决策的执行，即像人一样操作窗口、图标、菜单和指针等形成一条操作路径，完成给定的交互任务，而不需要依赖于结构化的编程接口。

“简单来说，GLM-PC 用电脑的方式几乎完全和人一样。”张鹏指出，正因如此，GLM-PC 并不依赖于 HTML、API，有着更高的能力上限：理论上来说，只要是为人类设计的应用，GLM-PC 在学习之后都能够执行，这是一种系统级、跨平台的能力。

目前，GLM-PC 的「邀请体验」已开启（https://www.wjx.top/vm/mOs9cHw.aspx），第一阶段的内测体验场景包括：会议替身、文档处理、网页搜索与总结、远程和定时操作以及隐形屏幕。

不过，张鹏也补充道，当前 GLM-PC 离真正面向真实场景还有一些路要走，在目前的内测体验中，用户仍需要精准输入指令，“我们会继续努力，在产品完善后尽快上线，供所有用户使用”。张鹏坚信：一句话操作电脑和手机的时代，即将到来。

“开启一个 AI 原生设备的时代”

在模型能力的不断进步下，单一的文本语言模型发展到如今的多模态模型，它们不仅具备了思考能力，还增强了任务规划和执行的能力。

对此，智谱 COO 张帆指出，智能设备在大模型的加持下，将会焕发出新的机会。例如，手机+AI 将成为随身个人智能助理，PC+AI 将成为全新的生产力工具，汽车+AI 将成为真正的智能第三生活空间。为此在智谱 Agent OpenDay 现场，来自荣耀手机、华硕电脑、小鹏汽车、高通和英特尔的技术代表也作为智谱的客户及合作伙伴，从不同的应用场景出发，分享了他们在智能终端领域的实践经验和未来展望。

正如张帆所说：“我们期待借助这样的 AI 能力，开启一个 AI 原生设备的时代。”

来源：CSDN一点号

标签： agent 张鹏 autoglm

本文地址：https://news.43u.com.cn/a/73017.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!