联网/用电脑… OpenAI 新 Agent 套件全解析

360影视 动漫周边 2025-03-12 18:02 3

摘要:Responses API:本次发布会的核心,可视作 Chat API 的上位升级内置工具 (Built-in Tools),有三个:网页搜索、文件搜索 和 Computer Using Agent(CUA)Agents SDK:这是个开源 Agent 框架(

凌晨 1 点的时候,OpenAI 发布了全套 Agent 开发套件,让手搓 Manus 触手可及。套件包含 4 个主要内容

Responses API:本次发布会的核心,可视作 Chat API 的上位升级内置工具 (Built-in Tools),有三个: 网页搜索、文件搜索 和 Computer Using Agent(CUA)Agents SDK:这是个开源 Agent 框架(你没看错,OpenAI Open 了),让开发者能够更轻松地构建和管理复杂的单 Agent 和多 Agent 系统。监控工具:在开发者后台,帮助追踪和检查 Agent 工作流的执行过程。

不黑不吹:这次的发布,比 GPT 4.5 有诚意太多了,值得掌声

在这篇文章里,我将结合发布会里的内容,以及「发布上没说,但我知道的」内容,给大家带来最完整的呈现。

这是一个专门为 Agent 进行优化的 API,并支持以往 API (Chat Completions API)的所有功能。

这里需要小吹一下:Responses API 支持新的内置工具,并支持可预测性的流式事件,极大的简化了项目的复杂度

可以看一下这个视频,感受下:

为了直观的展示能力,这里我做了个对比图:

对于原本的 Chat Completions API,未来虽不会下线,但一些新模型可能不再支持。

因此:如果没有历史包袱,开新坑的时候,无脑用新 API 就好了

从调用的角度,差异不大,稍微修改下就好了

你看到这篇文章,很可能是老板发过来的:让你整理下这东西的价值/特性。

我给整理好了,贴在这里。

这里说个八卦,在 23 年的时候,OpenAI 搞了个叫做 Assistants API,被建议用于 Agent 开发。

而那时,作为 OpenAI 的生态负责人的 Logan,也向外传递了这一消息。

但老实讲,这个 API 非常非常难用,甚至还要额外付费,就一直没啥人用,于是...

24年3月初的时候,Logan 突然离职(那段时间,OpenAI 风波不断)

自那之后,关于 Assistants API 的升级的事儿,就没后文了。

再然后就是今天 Response API 发布后,Assistants API 被预告了将在 2026 年下线。

果然,曾经的小甜甜,今天的牛夫人。

Web Search / 网页搜索File Search / 文件搜索Computer Use Agent(CUA)工具流程图

按官方计划,之后还会再加入「代码编译器」,等更新吧

这些东西,都需要前面提到的 Responses API,方式较为通用

from openai import OpenAI
client = OpenAI

response = client.responses.create(
model: "适用模型", // computer-use-preview或gpt-4o等
tools: [{
type: "工具名称", // web_search_preview, file_search, computer_use_preview // 工具特定参数...
}],
truncation: "auto", // computer_use必需
input="What was a positive news story from today?"
// 其他参数...
)

print(response.output_text)

没错...现在 OpenAI 的 API 支持搜索了,允许你配置的东西还蛮多的,比如国家、城市、时区、搜索强度等。

要点我整理如下:

老实讲,虽在合理范围,但还是偏贵。作为对比,常规的搜索 API 官方价格如下:

这不算是新功能,之前就推出过,算是个版本更新。

使用流程大抵是:

上传文件到 OpenAI 的向量库它会处理一阵子,完了就可以使用了使用 file_search 来获取回答

同样的,我给做了一份要点可视化

它很像智谱的牛牛:《附内测地址:AI 开始接管物理世界》,让 AI 通过截图理解界面状态并执行交互操作,实现自动化任务。

我翻了下接口文档,发现这东西目前支持 9 种行为

这些行为,将会被 CUA 进行自动的组合和执行,达到操作电脑的效果

按 OpenAI 的说法,性能肯定是 Sota(遥遥领先) 的

对了,如果你想快速体验,可以直接 fork 这个项目

这次,必须得吹爆 OpenAI 了,他们开源了一个硬货:OpenAI Agent 框架。

Git 地址在这:

这是一个支持 multi-agent 的框架,任何符合 OpenAI Chat Completions API 的模型都可以来用。

换句话说,DeepSeek 也能用 OpenAI 的这个框架

这里放几个示例

pip install openai-agents
from agents import Agent, Runner

agent = Agent(name="Assistant", instructions="You are a helpful assistant")

result = Runner.run_sync(agent, "Write a haiku about recursion in programming.")
print(result.final_output)
# 输出: Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

代理交接

pip install openai-agents
from agents import Agent, Runner
import asyncio

spanish_agent = Agent(
name="Spanish agent",
instructions="You only speak Spanish.",
)

english_agent = Agent(
name="English agent",
instructions="You only speak English",
)

triage_agent = Agent(
name="Triage agent",
instructions="Handoff to the appropriate agent based on the language of the request.",
handoffs=[spanish_agent, english_agent],
)

async def main:
result = await Runner.run(triage_agent, input="Hola, ¿cómo estás?")
print(result.final_output)
# 输出: ¡Hola! Estoy bien, gracias por preguntar. ¿Y tú, cómo estás?

if __name__ == "__main__":
asyncio.run(main)

函数工具

import asyncio
from agents import Agent, Runner, function_tool

@function_tool
def get_weather(city: str) -> str:
return f"The weather in {city} is sunny."

agent = Agent(
name="Hello world",
instructions="You are a helpful agent.",
tools=[get_weather],
)

async def main:
result = await Runner.run(agent, input="What's the weather in Tokyo?")
print(result.final_output)
# 输出: The weather in Tokyo is sunny.

if __name__ == "__main__":
asyncio.run(main)

监控工具

OpenAI 这次带来了两个监控工具,一个叫 Logs,一个叫 Traces,都在:

对于请求,是会被归入 Logs 里;

如果是 Agent 调试,整个监控也会被归入 Trace,就像是这样;

你可以在这里找到文档:

但我相信..如果你和我一样,是 Colab 用户,那么在调试的过程中,可能会出现这个问题:

之后 OpenAI 的朋友提醒道:在载入 openai agents 之前,先设置环境变量就行了

来源:东窗史谈

相关推荐