字节版manus,多模态 AI Agent开源!(附DeepSeek资料下载)

360影视 动漫周边 2025-03-24 11:59 4

摘要:Agent TARS 是一个开源的多模态人工智能代理,它通过视觉解析网页并无缝集成到命令行和文件系统中,利用浏览器操作。字节跳动开源的多模态 AI Agent,最大的特点是能够通过视觉方式理解网页内容,并与命令行和文件系统无缝集成

Agent TARS 是一个开源的多模态人工智能代理,它通过视觉解析网页并无缝集成到命令行和文件系统中,利用浏览器操作。字节跳动开源的多模态 AI Agent,最大的特点是能够通过视觉方式理解网页内容,并与命令行和文件系统无缝集成

高级浏览器操作:通过代理框架执行复杂的任务,如深度研究和操作员功能,实现全面规划和执行。️ 全面工具支持:与搜索、文件编辑、命令行和模型上下文协议(MCP)工具集成,以处理复杂的工作流程。增强桌面应用:全新的用户界面,包括浏览器显示、多模态元素、会话管理、模型配置、对话流程可视化以及浏览器/搜索状态跟踪。 工作流程编排:无缝连接 GUI 代理工具——搜索、浏览、探索链接,并将信息综合成最终输出。⚙️ 开发者友好框架:简化与 UI-TARS 的集成以及 GUI 代理项目的自定义工作流程创建。

您可以从我们的发布页面下载 Agent TARS 的最新版本。

注意:如果您已安装 Homebrew,可以通过运行以下命令安装 UI-TARS Desktop:

brew install --cask agent-tars系统设置 -> 隐私和安全 -> 无障碍访问

您可以点击左下角的按钮打开配置页面:

然后您可以设置模型配置和搜索配置。

对于模型配置,您可以设置模型提供者和 API 密钥:

对于 Azure OpenAI,您可以设置更多参数,包括 apiVersion、deploymentName 和 endpoint。

搜索配置中,您可以设置搜索提供者和 API 密钥:

您可以在输入框中输入您的问题,然后按 Enter 键发送问题。这里有一个示例:

它正在工作!

我们也支持人机交互,这意味着您可以通过输入框在工作过程中与代理进行交互。如果您想改变当前代理的工作方向,您可以在顶部位置的特殊输入框中输入您的想法,然后按 Enter 键发送您的想法。

项目链接

本文完,记得随手点个赞、收藏和转发三连,大家感兴趣的可以关注下,后续我再研究点新东西分享给大家⭐~,也给大家推荐一款时光印记-纪念码:https://time.y-p.cc

时光印记-纪念码贴在墓碑、骨灰盒、纪念册、纪念物、纪念遗物上,&云片)即可看到去世亲人好友的珍贵回忆(照片、录音、视频等),再不用担心以后换手机导致珍贵回忆的相册不见了!

来源:AIGC研究社

相关推荐