- AI 交互新变革，开启数字世界新大门

摘要：最近，人工智能领域又有大动作！Manus 热度还没过，openai 刚刚又推出Computer-Using Agent，卷应用卷Agent的时代看起来真的来了。

最近，人工智能领域又有大动作！Manus 热度还没过，openai 刚刚又推出Computer-Using Agent，卷应用卷Agent的时代看起来真的来了。

OpenAI 推出的 Computer-Using Agent（CUA），正在悄然改变 AI 与数字世界的交互方式。

它就像一个数字小助手，能帮我们在网络世界里轻松完成各种任务。

今天，就带大家深入了解一下这个神奇的 CUA。

CUA 是一种结合了 GPT-4o 视觉能力和强化学习推理的模型，简单来说，它能像人类一样和图形用户界面（GUI）互动。不管是电脑上的软件界面，还是网页上的各种按钮、菜单，CUA 都能识别并操作，而且它不需要特定的操作系统或网络 API，使用起来灵活度超高。这背后可是凝聚了多年在多模态理解和推理领域的研究成果，让 AI 可以像我们一样使用日常的数字工具，打开了全新应用的大门。

如上图所示，CUA 的工作过程就像是一场精密的 “数字舞蹈”，通过感知、推理、行动这三个环节不断循环。

当接到用户指令后，CUA 首先进行感知。它会把电脑屏幕截图添加到模型的上下文里，就像我们用眼睛观察周围环境一样，获取电脑当前状态的视觉信息。
接着进入推理阶段。CUA 会利用思维链，综合考虑现在和过去的截图以及操作，来思考下一步该怎么做。这个过程就像是在脑袋里规划行动路线，通过评估观察到的情况、跟踪中间步骤，根据实际情况灵活调整策略。
最后是行动环节。CUA 会用虚拟鼠标和键盘执行点击、滚动、输入等操作，直到它觉得任务完成了，或者需要用户输入信息。遇到像输入登录信息、填写验证码这种敏感操作时，CUA 还会主动向用户确认，确保安全不出错。

衡量 CUA 的实力，得看它在各种基准测试中的表现。在 OSWorld 基准测试里，CUA 控制 Ubuntu、Windows 和 macOS 等操作系统任务的成功率达到 38.1%；在 WebArena 测试中，完成网络任务的成功率是 58.1% ；在 WebVoyager 测试里，这个数据更是高达 87%。这些成绩相当亮眼，说明 CUA 在不同的数字环境里都能发挥作用。不过，和人类相比，CUA 还有进步空间，在复杂任务上还需要继续提升。

在实际应用场景中，CUA 的表现有亮点也有不足。
在与多种 UI 组件交互获取信息方面，它表现出色。比如在不同网站上搜索、筛选信息，像在 Britannica 网站搜索熊栖息地的详细地图，或者在购物网站查找特定商品，CUA 都能完成得不错，只是在不同网站和 UI 上的可靠性不太一样。
对于重复性简单 UI 交互任务，CUA 堪称 “小能手”。

像在 Todoist 创建新项目、在 Spotify 搜索歌曲并创建播放列表，它都能可靠地重复操作，帮我们自动完成那些繁琐的小任务。
但 CUA 也有短板。遇到不熟悉的 UI 界面时，它就有点 “懵”，常常要反复尝试，操作效率不高。在处理文本编辑任务时，CUA 也不太精准，容易出错。

CUA 在浏览器使用方面展现出一定的能力，但也存在提升空间，其表现具体如下：

任务成功率较高：在 WebArena 和 WebVoyager 这两个专门评估网页浏览智能体性能的基准测试中，CUA 取得了不错的成绩。在 WebArena 上，其完成网络任务的成功率为 58.1%；在 WebVoyager 上，成功率更是高达 87% 。这表明 CUA 能够在多种网络环境下完成任务，具备一定的实用性。能处理多种任务类型：可以与多种 UI 组件交互，在不同网站上进行搜索、筛选信息，如在 Britannica 网站搜索熊栖息地的详细地图，以及在购物网站查找特定商品等。对于重复性简单 UI 交互任务，CUA 也能可靠地重复操作，例如在 Todoist 创建新项目、在 Spotify 搜索歌曲并创建播放列表等。面对复杂任务及特定情况存在不足：在 WebArena 测试中，CUA 与人类 78.2% 的成功率相比仍有差距，在处理复杂任务时需要更多改进。当遇到不熟悉的 UI 界面时，CUA 会难以适应，操作效率较低。并且它在文本编辑任务上不够精准，容易出现错误。

下载课件

合并pdf

计算价格

图像导出

CUA 能直接在浏览器里执行操作，这也带来了一些风险。为了让大家用得放心，开发团队采取了一系列严密的安全措施。
针对滥用风险，CUA 经过训练，会拒绝有害任务，还会屏蔽像赌博、成人娱乐、涉毒涉枪等危险网站。同时，有自动安全检查程序实时审查用户的交互行为，发现违规就会警告或阻止，还有离线检测机制来确保用户遵守使用政策。
对于模型错误可能导致的风险，CUA 在执行像提交订单、发送邮件这种有外部影响的任务前，会向用户确认。一些高风险任务，比如银行交易，CUA 目前会拒绝执行。在敏感网站，还需要用户主动监督。此外，CUA 还具备识别和忽略网站上的提示注入等攻击的能力，还有监控和检测机制来防范风险。

CUA 的未来充满无限可能。研发团队打算拓展它的行动空间，让它能应对更多复杂场景和任务。同时，CUA 接入 API 的工作也在推进中，以后开发者就能基于 CUA 构建各种个性化的计算机智能体。随着实际应用反馈的不断积累，CUA 的功能会越来越强大，安全措施也会越来越完善，相信它会在更多领域发挥重要作用，为我们的生活和工作带来更多便利和创新。

CUA 作为人工智能领域的新突破，虽然还在成长阶段，但已经展现出巨大的潜力。大家对 CUA 有什么看法或者期待呢？欢迎在评论区留言讨论！

来源：小顾科技论

标签：数字 ui 交互 ui组件 cua

本文地址：https://news.43u.com.cn/a/723294.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!