OpenAl发布Agent工具包，网友：谢谢Manus AI

摘要：就在刚刚，OpenAI发布了一系列专为构建AIAgents设计的新工具和API，帮助开发者更容易创建能自动完成任务的AIAgents（智能体）。

就在刚刚，OpenAI发布了一系列专为构建AIAgents设计的新工具和API，帮助开发者更容易创建能自动完成任务的AIAgents（智能体）。

OpenAI认为，虽然过去一年推出的高级推理、多模态交互等模型能力为Agent奠定了基础，但开发者在构建生产级Agent时，还是会遇到不少难题。

为此，他们今天特地发布了全新的ResponsesAPI、三种内置工具以及一个开源的AgentsSDK。

省流版如下：

ResponsesAPI：结合ChatCompletionsAPI简洁性与AssistantsAPI工具使用能力的新型API接口；

Web搜索工具（WebSearchTool）：让模型访问互联网获取最新信息的工具；

文件搜索工具（FileSearchTool）：从大量文档中检索相关信息的增强工具；

计算机使用工具（ComputerUseTool）：由Computer-UsingAgent（CUA）模型提供支持的计算机操作自动化工具，让AI能像人一样操作电脑界面；

AgentsSDK：基于Swarm框架升级，简化多Agent工作流程编排的开源框架。

具体来说，ResponsesAPI结合了ChatCompletionsAPI（主要用来生成对话回复）的简洁性和AssistantsAPI（能让AI调用外部功能，比如查资料、操作东西）的工具使用能力，成为构建Agent应用的新基础。

开发者只需调用一次API，即可利用多种工具和多轮模型交互解决复杂任务。

在内置工具方面，Web搜索工具支持GPT-4o和GPT-4o-mini模型获取网络最新信息并提供清晰的引用。在SimpleQA基准测试中，这两款模型的搜索预览版分别拿下了90%和88%的亮眼准确率。

升级后的文件搜索工具更是给力，支持多种文件格式，还能优化查询、过滤元数据、自定义排序，让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与Operator相同的Computer-UsingAgent（CUA）模型提供支持，可捕获模型生成的鼠标和键盘操作，在OSWorld、WebArena和WebVoyager基准测试中分别取得38.1%、58.1%和87%的成绩。

OpenAI还推出了开源的AgentsSDK，专门用来简化多Agent工作流程的编排。

相比去年发布的实验性Swarm框架，这个全新SDK有了显著的改进。

提供易于配置的LLM与内置工具集成、Agent间智能交接控制、可配置安全检查以及可视化追踪等功能，适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经使用这些新工具做出了实打实的成果。

在官网列举的案例中，Hebbia利用Web搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解；Navan将文件搜索工具应用于AI旅行Agent中，为用户提供精准的旅行政策答案。

Unify和Luminai则使用计算机使用工具自动化复杂操作流程，特别是对缺乏API的传统系统；Box利用AgentsSDK快速构建和部署了企业数据搜索应用。

产品发布后，网友也在OpenAI的评论区玩起了梗。

还有网友专门留言感谢ManusAI。

在今天凌晨的现场直播中，演示人员也通过一个“个人造型师”Agent的应用案例，向我们展示了这些新工具的能耐。

举个例子，他们先用文件搜索工具翻看了用户（比如“Elon”和“Kevin”）的服装喜好数据，系统轻松整理出这些人的穿衣风格。

接着结合Web搜索工具，系统能够基于用户所在位置（演示中使用“东京”作为Kevin的位置）搜索附近的相关商店，为Kevin推荐了东京的Patagonia店铺。

然后，计算机使用工具（ComputerUseTool）登场，自动操作网页界面，为Kevin买下一件黑色Patagonia夹克，整个过程行云流水——点击、拖拽、填信息，宛如真人在操控。

最后还演示了Agent间的交接功能。Agent将退货请求无缝交接给客服Agent，后者能够调用获取密码和提交退款请求等功能，帮助用户完成Patagonia夹克的退货。

可以说，凭借新工具和API的默契配合，这些AIAgent不仅能读懂用户喜好、获取实时资讯、执行复杂操作，还能在不同任务间灵活切换，完美覆盖从推荐到购买再到退货的全流程。

至于现有API的安排，OpenAI表示会继续全力支持ChatCompletionsAPI，为不需要内置工具的开发者提供新模型和功能。

而基于AssistantsAPI测试版的反馈，他们已经把关键改进整合到ResponsesAPI中，计划在功能对齐后，于2026年中期正式停用AssistantsAPI，同时会提供详细的迁移指南。

新工具的定价也已经新鲜出炉。

Web搜索每千次查询分别为GPT-4o搜索30美元和GPT-4o-mini搜索25美元；文件搜索每千次查询2.5美元，文件存储0.1美元/GB/天（首GB免费）；计算机使用工具则按每输入百万token/3美元和每输出百万token/12美元计费。

OpenAI表示，随着模型能力变得更加具有Agent属性，他们会继续深化API间的整合，并提供新工具帮助部署、评估和优化生产环境中的Agent。

英伟达CEO黄仁勋曾指出，未来每个公司的IT部门将转变为AIAgent的“HR部门”。

从管人到管AI，Agent将很快成为劳动力的重要组成部分，提高各行业的生产力，此次发布的工具集将是帮助开发者和企业构建、部署和扩展可靠高效AIAgent的重要一步。

此前，开发者需要自行组合不同API和编写复杂的协调逻辑来构建AIAgent，有了新工具，能够极大地简化了这一过程。

ResponsesAPI将多种功能整合成一个简单接口，而内置工具为AI提供了“感知”和“行动”的能力，AgentsSDK则提供了协调多Agent的标准框架。

通过降低技术门槛，更多企业能够快速构建和部署AIAgent。

这或许也是OpenAI所说的“Agnet元年”的真正含义——让AI不再局限于聊天框，而是能融入现实工作流程，成为你的“数字助理”甚至“数字同事”。

附上AMA问答：

Q：哪种操作系统最适合computeruse：Linux、Mac还是Windows？是图形界面（UI）、终端（terminal），还是其他方式更好？哪些应用程序在计算机上表现最佳，还是说这并不重要？

A：CUA模型主要是针对网页任务进行训练的，但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段，我们还有很多可以改进的地方！

Q：你们会提供TypeScriptSDK吗？

A：很快会推出。

Q：我们未来会在API中看到o1pro吗？

A：计划很快在responsesAPI中发布。

Q：我们需要自行管理Docker环境来使用计算机功能吗？

A：可自行管理Docker环境，也可以使用云服务。

Q：何时会有Operator在API中可用？

A：从今天开始，你可以在API中使用与Operator相同的功能！我们已经在新的ResponsesAPI中部署了驱动Operator的CUA模型。

Q：你们会考虑提供集成的虚拟机（VM）来支持“computeruse”，或者与合作伙伴合作，以减少搭建环境的需求吗？

A：目前还没有这样的计划，但可以查看CUA示例应用，其中包含一些示例环境，用于远程托管。

Q：在整个agent-handoff流程中，如何确保个人隐私？有没有什么方法可以增强用户与Agent交互时的隐私保护？

A：有多种隐私保护机制。AgentsSDK支持开发者定义的安全措施（guardrails），用于输入/输出验证，还可以使用input_filter来限制在交接过程中传递的消息上下文。

来源：雷霆战神王

标签： agent 工具包 openal agent工具包 manu

本文地址：https://news.43u.com.cn/a/693059.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐