- AI 交互新变革,开启数字世界新大门

360影视 日韩动漫 2025-03-12 19:32 2

摘要:最近,人工智能领域又有大动作!Manus 热度还没过,openai 刚刚又推出Computer-Using Agent,卷应用卷Agent的时代看起来真的来了。

最近,人工智能领域又有大动作!Manus 热度还没过,openai 刚刚又推出Computer-Using Agent,卷应用卷Agent的时代看起来真的来了。

OpenAI 推出的 Computer-Using Agent(CUA),正在悄然改变 AI 与数字世界的交互方式。

它就像一个数字小助手,能帮我们在网络世界里轻松完成各种任务。

今天,就带大家深入了解一下这个神奇的 CUA。

CUA 是一种结合了 GPT-4o 视觉能力和强化学习推理的模型,简单来说,它能像人类一样和图形用户界面(GUI)互动。不管是电脑上的软件界面,还是网页上的各种按钮、菜单,CUA 都能识别并操作,而且它不需要特定的操作系统或网络 API,使用起来灵活度超高。这背后可是凝聚了多年在多模态理解和推理领域的研究成果,让 AI 可以像我们一样使用日常的数字工具,打开了全新应用的大门。

如上图所示,CUA 的工作过程就像是一场精密的 “数字舞蹈”,通过感知、推理、行动这三个环节不断循环。


当接到用户指令后,CUA 首先进行感知。它会把电脑屏幕截图添加到模型的上下文里,就像我们用眼睛观察周围环境一样,获取电脑当前状态的视觉信息。
接着进入推理阶段。CUA 会利用思维链,综合考虑现在和过去的截图以及操作,来思考下一步该怎么做。这个过程就像是在脑袋里规划行动路线,通过评估观察到的情况、跟踪中间步骤,根据实际情况灵活调整策略。
最后是行动环节。CUA 会用虚拟鼠标和键盘执行点击、滚动、输入等操作,直到它觉得任务完成了,或者需要用户输入信息。遇到像输入登录信息、填写验证码这种敏感操作时,CUA 还会主动向用户确认,确保安全不出错。

衡量 CUA 的实力,得看它在各种基准测试中的表现。在 OSWorld 基准测试里,CUA 控制 Ubuntu、Windows 和 macOS 等操作系统任务的成功率达到 38.1%;在 WebArena 测试中,完成网络任务的成功率是 58.1% ;在 WebVoyager 测试里,这个数据更是高达 87%。这些成绩相当亮眼,说明 CUA 在不同的数字环境里都能发挥作用。不过,和人类相比,CUA 还有进步空间,在复杂任务上还需要继续提升。

在实际应用场景中,CUA 的表现有亮点也有不足。
在与多种 UI 组件交互获取信息方面,它表现出色。比如在不同网站上搜索、筛选信息,像在 Britannica 网站搜索熊栖息地的详细地图,或者在购物网站查找特定商品,CUA 都能完成得不错,只是在不同网站和 UI 上的可靠性不太一样
对于重复性简单 UI 交互任务,CUA 堪称 “小能手”

像在 Todoist 创建新项目、在 Spotify 搜索歌曲并创建播放列表,它都能可靠地重复操作,帮我们自动完成那些繁琐的小任务。
但 CUA 也有短板。遇到不熟悉的 UI 界面时,它就有点 “懵”,常常要反复尝试,操作效率不高。在处理文本编辑任务时,CUA 也不太精准,容易出错。

CUA 在浏览器使用方面展现出一定的能力,但也存在提升空间,其表现具体如下:

任务成功率较高:在 WebArena 和 WebVoyager 这两个专门评估网页浏览智能体性能的基准测试中,CUA 取得了不错的成绩。在 WebArena 上,其完成网络任务的成功率为 58.1%;在 WebVoyager 上,成功率更是高达 87% 。这表明 CUA 能够在多种网络环境下完成任务,具备一定的实用性。能处理多种任务类型:可以与多种 UI 组件交互,在不同网站上进行搜索、筛选信息,如在 Britannica 网站搜索熊栖息地的详细地图,以及在购物网站查找特定商品等 。对于重复性简单 UI 交互任务,CUA 也能可靠地重复操作,例如在 Todoist 创建新项目、在 Spotify 搜索歌曲并创建播放列表等。面对复杂任务及特定情况存在不足:在 WebArena 测试中,CUA 与人类 78.2% 的成功率相比仍有差距,在处理复杂任务时需要更多改进。当遇到不熟悉的 UI 界面时,CUA 会难以适应,操作效率较低。并且它在文本编辑任务上不够精准,容易出现错误。

下载课件

合并pdf

计算价格

图像导出

CUA 能直接在浏览器里执行操作,这也带来了一些风险。为了让大家用得放心,开发团队采取了一系列严密的安全措施。
针对滥用风险,CUA 经过训练,会拒绝有害任务,还会屏蔽像赌博、成人娱乐、涉毒涉枪等危险网站。同时,有自动安全检查程序实时审查用户的交互行为,发现违规就会警告或阻止,还有离线检测机制来确保用户遵守使用政策。
对于模型错误可能导致的风险,CUA 在执行像提交订单、发送邮件这种有外部影响的任务前,会向用户确认。一些高风险任务,比如银行交易,CUA 目前会拒绝执行。在敏感网站,还需要用户主动监督。此外,CUA 还具备识别和忽略网站上的提示注入等攻击的能力,还有监控和检测机制来防范风险。

CUA 的未来充满无限可能。研发团队打算拓展它的行动空间,让它能应对更多复杂场景和任务。同时,CUA 接入 API 的工作也在推进中,以后开发者就能基于 CUA 构建各种个性化的计算机智能体。随着实际应用反馈的不断积累,CUA 的功能会越来越强大,安全措施也会越来越完善,相信它会在更多领域发挥重要作用,为我们的生活和工作带来更多便利和创新。

CUA 作为人工智能领域的新突破,虽然还在成长阶段,但已经展现出巨大的潜力。大家对 CUA 有什么看法或者期待呢?欢迎在评论区留言讨论!

来源:小顾科技论

相关推荐