ShowUI:GUI 智能小助手,自动完成复杂的用户界面任务

360影视 2025-01-16 18:49 2

摘要:ShowUI 是由新加坡国立大学 Show Lab 和微软于 2024 年共同开发的视觉-语言-行动模型,专为图形用户界面 (GUI) 智能助手设计,旨在提高人类工作的效率,这个模型通过理解屏幕界面的内容,并执行如点击、输入、滚动等交互动作,支持网页和手机应用

ShowUI 是由新加坡国立大学 Show Lab 和微软于 2024 年共同开发的视觉-语言-行动模型,专为图形用户界面 (GUI) 智能助手设计,旨在提高人类工作的效率,这个模型通过理解屏幕界面的内容,并执行如点击、输入、滚动等交互动作,支持网页和手机应用场景,能够自动完成复杂的用户界面任务。ShowUI 能够解析屏幕截图和用户指令,进而预测出界面上的交互动作。

教程链接:https://go.openbayes.com/RWqwI

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

选择「NVIDIA 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!

稍等片刻,待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

进入 Demo 页面后,先上传一张图片,模型提供了 3 种上传方式:本地上传、拍照、截图。大家可以根据自己需求进行上传。上传好图片后,在「Query」处输入指令,最后点击「Submit」生成。

这里我们上传了一张音乐软件的截图,在「Query」处输入了「Star to favorite.」,可以看到模型准确地识别了我们的指令。

来源:武信忠正

相关推荐