Agent TARS:字节开源PC端多模态AI助手

360影视 日韩动漫 2025-04-07 14:23 5

摘要:写报告时要不停切换浏览器/文档/终端,窗口切到眼花重复性操作浪费生命:下载文件→重命名→编辑内容→上传服务器…多任务并行时像个八爪鱼,还总漏掉关键步骤

你是否也经历过这些崩溃瞬间——

写报告时要不停切换浏览器/文档/终端,窗口切到眼花重复性操作浪费生命:下载文件→重命名→编辑内容→上传服务器…多任务并行时像个八爪鱼,还总漏掉关键步骤✅ 全自动任务流水线:从网页爬取到文件处理自动完成✅ 多模态无缝衔接:同时操控浏览器/命令行/文档,像指挥交响乐团✅ 执行过程全透明:实时可视化每个操作步骤,随时介入调整

已有开发者用它1小时搞定全天工作,接下来带你玩转这个开源神器,解锁「躺着干活」的新姿势!

Agent TARS 是一款开源的多模态AI助手,专为提升浏览器操作和任务执行效率而设计。
1. 核心功能:支持浏览器操作、命令行集成、文件编辑等复杂任务。
2. 技术原理:基于先进的代理框架和模型上下文协议(MCP),实现任务规划与执行的无缝衔接。

Agent TARS 是一款开源的多模态AI助手,旨在通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。它能够执行深度研究、文件编辑、任务规划与执行等操作,极大地提升了工作效率。

Agent TARS 的核心在于其强大的代理框架,能够通过事件流与UI无缝连接,实现任务的自动化执行。无论是浏览网页、探索链接,还是整合信息生成最终输出,Agent TARS 都能轻松应对。

任务规划与执行:通过代理框架实现任务的自动化规划与执行,支持搜索、浏览、探索链接等操作。多工具集成:无缝集成浏览器、命令行、文件编辑等多种工具,支持复杂工作流的处理。实时输出展示:提供直观的流式用户界面,展示浏览器、文档等多模态输出结果。人机交互:支持“人在回路”模式,用户可以在任务执行过程中实时干预和调整方向。任务分享:支持将任务线程打包为HTML文件或上传至远程服务器,方便与他人分享。代理框架:通过先进的代理框架实现任务的自动化规划与执行,确保任务的高效完成。模型上下文协议(MCP):利用MCP协议无缝集成多种工具,支持复杂工作流的处理。事件流:通过事件流与UI无缝连接,实现任务的实时监控与调整。多模态输出:支持浏览器、文档等多模态输出结果的实时展示,提升用户体验。

下面将详细介绍如何安装、配置和运行 Agent TARS,以及如何进行简单的操作入门。

免责声明:Agent TARS 目前仍处于技术预览阶段,尚未稳定,不建议用于生产环境。

访问Releases页面下载最新版本的桌面程序包。目前,Agent TARS 仅支持 macOS,其他平台的支持正在开发中。

Releases:https://github.com/bytedance/UI-TARS-desktop/releases?q=Agent+Tars&expanded=true

首次打开应用程序时,你需要进入左下角的 设置 页面,并完成必要的配置:

Agent-TARS-setting-icon

在设置页面中,你可以配置模型提供方和 API Key:

如果使用 Azure OpenAI,你还可以设置更多参数,包括 apiVersion、deploymentName 和 endpoint。

在搜索设置中,你可以配置搜索引擎提供方和 API Key:

开始你的首次任务

完成配置后,你可以通过输入框与 Agent TARS 进行交互。输入你的问题并按下回车键即可发送请求。例如:

人机交互模式

Agent TARS 支持 人机交互模式,这意味着你可以在任务运行过程中通过输入框干预任务方向。如果需要调整任务方向,可以在顶部的特殊输入框中输入你的想法并按下回车键。例如:

human-in-the-loop

分享你的任务

你可以通过顶部菜单的分享按钮将任务分享给他人。Agent TARS 提供了两种分享模式:

remote-share

Agent TARS 将向远程服务器发送请求,上传 HTML 文件,并生成一个可分享的 URL。具体请求信息如下:

来源:正正杂说

相关推荐