摘要:就在刚刚,OpenAI发布了一系列专为构建AIAgents设计的新工具和API,帮助开发者更容易创建能自动完成任务的AIAgents(智能体)。
就在刚刚,OpenAI发布了一系列专为构建AIAgents设计的新工具和API,帮助开发者更容易创建能自动完成任务的AIAgents(智能体)。
OpenAI认为,虽然过去一年推出的高级推理、多模态交互等模型能力为Agent奠定了基础,但开发者在构建生产级Agent时,还是会遇到不少难题。
为此,他们今天特地发布了全新的ResponsesAPI、三种内置工具以及一个开源的AgentsSDK。
省流版如下:
ResponsesAPI:结合ChatCompletionsAPI简洁性与AssistantsAPI工具使用能力的新型API接口;
Web搜索工具(WebSearchTool):让模型访问互联网获取最新信息的工具;
文件搜索工具(FileSearchTool):从大量文档中检索相关信息的增强工具;
计算机使用工具(ComputerUseTool):由Computer-UsingAgent(CUA)模型提供支持的计算机操作自动化工具,让AI能像人一样操作电脑界面;
AgentsSDK:基于Swarm框架升级,简化多Agent工作流程编排的开源框架。
具体来说,ResponsesAPI结合了ChatCompletionsAPI(主要用来生成对话回复)的简洁性和AssistantsAPI(能让AI调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建Agent应用的新基础。
开发者只需调用一次API,即可利用多种工具和多轮模型交互解决复杂任务。
在内置工具方面,Web搜索工具支持GPT-4o和GPT-4o-mini模型获取网络最新信息并提供清晰的引用。在SimpleQA基准测试中,这两款模型的搜索预览版分别拿下了90%和88%的亮眼准确率。
升级后的文件搜索工具更是给力,支持多种文件格式,还能优化查询、过滤元数据、自定义排序,让开发者从堆积如山的文档中迅速找到关键信息。
计算机使用工具则由与Operator相同的Computer-UsingAgent(CUA)模型提供支持,可捕获模型生成的鼠标和键盘操作,在OSWorld、WebArena和WebVoyager基准测试中分别取得38.1%、58.1%和87%的成绩。
OpenAI还推出了开源的AgentsSDK,专门用来简化多Agent工作流程的编排。
相比去年发布的实验性Swarm框架,这个全新SDK有了显著的改进。
提供易于配置的LLM与内置工具集成、Agent间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。
一些早期测试用户已经使用这些新工具做出了实打实的成果。
在官网列举的案例中,Hebbia利用Web搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan将文件搜索工具应用于AI旅行Agent中,为用户提供精准的旅行政策答案。
Unify和Luminai则使用计算机使用工具自动化复杂操作流程,特别是对缺乏API的传统系统;Box利用AgentsSDK快速构建和部署了企业数据搜索应用。
产品发布后,网友也在OpenAI的评论区玩起了梗。
还有网友专门留言感谢ManusAI。
在今天凌晨的现场直播中,演示人员也通过一个“个人造型师”Agent的应用案例,向我们展示了这些新工具的能耐。
举个例子,他们先用文件搜索工具翻看了用户(比如“Elon”和“Kevin”)的服装喜好数据,系统轻松整理出这些人的穿衣风格。
接着结合Web搜索工具,系统能够基于用户所在位置(演示中使用“东京”作为Kevin的位置)搜索附近的相关商店,为Kevin推荐了东京的Patagonia店铺。
然后,计算机使用工具(ComputerUseTool)登场,自动操作网页界面,为Kevin买下一件黑色Patagonia夹克,整个过程行云流水——点击、拖拽、填信息,宛如真人在操控。
最后还演示了Agent间的交接功能。Agent将退货请求无缝交接给客服Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成Patagonia夹克的退货。
可以说,凭借新工具和API的默契配合,这些AIAgent不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的全流程。
至于现有API的安排,OpenAI表示会继续全力支持ChatCompletionsAPI,为不需要内置工具的开发者提供新模型和功能。
而基于AssistantsAPI测试版的反馈,他们已经把关键改进整合到ResponsesAPI中,计划在功能对齐后,于2026年中期正式停用AssistantsAPI,同时会提供详细的迁移指南。
新工具的定价也已经新鲜出炉。
Web搜索每千次查询分别为GPT-4o搜索30美元和GPT-4o-mini搜索25美元;文件搜索每千次查询2.5美元,文件存储0.1美元/GB/天(首GB免费);计算机使用工具则按每输入百万token/3美元和每输出百万token/12美元计费。
OpenAI表示,随着模型能力变得更加具有Agent属性,他们会继续深化API间的整合,并提供新工具帮助部署、评估和优化生产环境中的Agent。
英伟达CEO黄仁勋曾指出,未来每个公司的IT部门将转变为AIAgent的“HR部门”。
从管人到管AI,Agent将很快成为劳动力的重要组成部分,提高各行业的生产力,此次发布的工具集将是帮助开发者和企业构建、部署和扩展可靠高效AIAgent的重要一步。
此前,开发者需要自行组合不同API和编写复杂的协调逻辑来构建AIAgent,有了新工具,能够极大地简化了这一过程。
ResponsesAPI将多种功能整合成一个简单接口,而内置工具为AI提供了“感知”和“行动”的能力,AgentsSDK则提供了协调多Agent的标准框架。
通过降低技术门槛,更多企业能够快速构建和部署AIAgent。
这或许也是OpenAI所说的“Agnet元年”的真正含义——让AI不再局限于聊天框,而是能融入现实工作流程,成为你的“数字助理”甚至“数字同事”。
附上AMA问答:
Q:哪种操作系统最适合computeruse:Linux、Mac还是Windows?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要?
A:CUA模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!
Q:你们会提供TypeScriptSDK吗?
A:很快会推出。
Q:我们未来会在API中看到o1pro吗?
A:计划很快在responsesAPI中发布。
Q:我们需要自行管理Docker环境来使用计算机功能吗?
A:可自行管理Docker环境,也可以使用云服务。
Q:何时会有Operator在API中可用?
A:从今天开始,你可以在API中使用与Operator相同的功能!我们已经在新的ResponsesAPI中部署了驱动Operator的CUA模型。
Q:你们会考虑提供集成的虚拟机(VM)来支持“computeruse”,或者与合作伙伴合作,以减少搭建环境的需求吗?
A:目前还没有这样的计划,但可以查看CUA示例应用,其中包含一些示例环境,用于远程托管。
Q:在整个agent-handoff流程中,如何确保个人隐私?有没有什么方法可以增强用户与Agent交互时的隐私保护?
A:有多种隐私保护机制。AgentsSDK支持开发者定义的安全措施(guardrails),用于输入/输出验证,还可以使用input_filter来限制在交接过程中传递的消息上下文。
来源:雷霆战神王