OpenAI 的 Agent 路线图:Operator 和 Deep Research 之后卷什么?

360影视 2025-02-06 18:37 3

摘要:当然,这些发布说是产品,其实更像功能预览。Sam Altman 在介绍 Operator 时就强调这是一个“research preview”版本。而根据这两天对 Deep Research 的试用,发现它擅长总结和发现,但分析能力还不够强:生成的报告 int

OpenAI 开启 AGI 第三层 -Agent 时代,AI 从「解放」人类到「解雇」人类也许不会太久。

作者丨桑基韬

2025年刚开始,OpenAI 就用 Operator 和 Deep Research 两个产品宣告了 AGI 第三层 -Agent 的到来

其实,在此之前,OpenAI 还发了一个名为 ChatGPT tasks 的 Agent 产品,支持日程提醒、更新等功能,类似一个代办助手。

当然,这些发布说是产品,其实更像功能预览。Sam Altman 在介绍 Operator 时就强调这是一个“research preview”版本。而根据这两天对 Deep Research 的试用,发现它擅长总结和发现,但分析能力还不够强:生成的报告 intelligence 有余、insight 不足。现阶段仍然只适合做专业人士的助手。

这说,至少在现在,Agent 的作用还是把人类从重复、低级的工作中“解放”出来,让人类把时间和精力放在更高阶的价值创造上。只是,从“解放”到“解雇”,也许不会太久

这些发布再次让我们看到了AI有多卷。Deep Research 发布才一天,Github 就出来好几个开源项目。不过用的并不是推理模型,实现的是此前总结的 ReAct 工作流方式(见“OpenAI的Deep Research 与 Perplexity、谷歌Deep Research、DeepSeek联网搜索”),类似 Kimi 探索版和谷歌版的 Deep Research。

对 OpenAI 版的 Deep Research 复现并不容易,它依赖模型的强大推理能力,而且需要针对搜索等工具能力使用进行微调。

Operator 和 Deep Research 两个产品很有代表性。Operator 代表的Computer use 旨在自动化、负责现实世界执行,Deep Research 代表的 Knowledge research 旨在智能化、负责异步信息处理。

一个执行、一个思考,像是人的手和大脑,结合起来实现 OpenAI 对 Agent 的定位:独立执行复杂任务

Operator 是此前很早就预告过的。而“deep research feature”其实也出现在了 Sam Altman 的新年愿望清单里。

值得注意的是,Sam Altman 在清单的下面配文是“many great updates we have coming were mentioned not at all or very little!”

这呼应了 Operator 的发布会开头,Sam Altman 说”we have more agents to launch in the coming weeks and months”。Deep Research 显然就是这些计划中 agent 的一个。

负责演示 Operator 的员工自称来自“computer use agent team”。不禁让人联想,OpenAI 还有多少 agent team?

OpenAI 向我们公开了它 AGI 五层路线图,短短四个月时间,就从 o1 代表的第二层 Reasoner 到了 Operator 和 Deep Research 代表的第三层 Agent。

站在 Agent 元年的开始,我们一起来看一看,第三层Agent内的路线图可能是什么样子?

可能的 Agent 层路线图

1 短期:应用落地

Agentic RPA

Computer use 的一个直接应用是企业办公流程自动化,可以认为是“双十二”发布会中 ChatGPT Desktop 在企业端应用的延续,是对现有基于预设流程 RPA 的自然升级。

传统 RPA 依赖预定义的规则和流程,适用于高度结构化和流程固定的任务,在处理非结构化数据或动态变化的环境时,效果并不好。

Agentic RPA 具备学习、推理和适应新场景的能力,使其能够处理更复杂的任务。通过整合到 ERP 或 CRM 系统中,可以适应不断变化的业务需求,为企业提供了更灵活的自动化解决方案。

Personal assistant

这个方向呼应的是“双十二”发布会中的 ChatGPT in Siri。相比 Agentic RPA,更侧重移动端,且更为个性化。

除了 AI 手机的常见功能,personal assistant 还可以帮助用户完成日程提醒、任务管理、行程规划与预订,以及在社交媒体平台、邮件系统、即时通信工具中进行自动化的消息回复等。

Personal assistant 未来的拓展包括主动和多模态上下文。主动是指从被动响应用户指令到主动预测需求;多模态上下文是指感知和解析用户环境,更好地理解用户行为和需求。这和最近传言的 OpenAI 在开发的 AI 设备密切相关。

Domain analyst

Deep Research 目前存在着开放域信息来源受限专业知识缺乏分析深度不足两个问题。OpenAI 研究副总裁 Mark Chen 在发布会上说,未来将接入企业数据库。

针对法律、医疗、科研等专业领域,除了访问专有数据,还需要通过强化微调等方式融合专业知识,以提高专业分析准确度和深度,才能实现从 information 到 insight 的跨越,支持实际生产环境中的分析咨询和辅助决策。

Coding agent

除了对已发布的 computer use 和 knowledge research 功能的升级和应用,类似 Delvin 的软件工程自动化可能是另一个重要方向。Coding Agent 模仿经验丰富的程序员,自动完成代码编写、调试甚至项目管理。

由于 Claude 3.5 Sonnet 和 Cursor 优秀的编程表现,相对忽视了 OpenAI 在这个方向的进展。据传,OpenAI 内部将“自动化工程师”作为现阶段“最具经济价值”的 AI 应用。

相信无论是内部自己使用,还是作为产品发布,Coding Agent 都是 OpenAI 的 agent 路线图上的重要基础和关键的一环

2 中期:能力拓展

从两个方面来看 Agent 的中期发展:(1)Computer use 代表的任务执行,通过访问更多的输入/输出接口,成为“更强大的手脚”(action executor);(2)Knowledge research 代表的信息处理,通过使用更多工具,成为“更全面的大脑”(insight seeker)。

Action executor

除了接入更多的软件应用 API,Agent 任务执行将从软件操作延伸到现实世界,需要同时增强输入感知和输出执行的接口。

典型的输入是 IoT 设备接口,通过接入智能家居和智能工厂中的 IoT 设备,可以感知周围环境、理解人类行为和需求,拓展 agent 自动化任务执行的应用场景。OpenAI 新研发的 AI 设备也将提供更多的输入接口和用户环境上下文信息。

输出执行接口会涉及智能设备的远程操作控制,如指挥智能家居、自动化工厂。如果结合 OpenAI 投资的机器人公司,这一方向还可能接入机械执行系统。

Insight seeker

Mark Chen 在介绍 Deep Research 名字的来历时提到,”Deep”是指去掉了时间限制,而搜索只是第一步,希望未来接入更多工具,让 agent 能够“自主发现新的知识”。

可能的工具包括用于增强信息获取能力的垂域搜索引擎、专业数据库和内部知识库访问、爬虫和解析工具等,以及用于增强信息分析能力的推理规划器、图谱构建、数学计算和建模、实验仿真和预测专业软件等。

信息处理不再始于用户的明确需求,形式也不再是简单的问答。角色将发生转换:我们为 Agent 提供数据、实验资料、仿真环境,然后看着它自主探索、分析、推演,最终得出新发现。

结合 action executor 和 coding agent 的继续发展,insight seeker 有希望进一步迈向第四层 -innovator

3 长期:生态构建

在中短期的 agent 路线中,有些问题是需要长期、持续解决的。比如输入/输出访问和工具使用中的 agent 协议问题,包括任务执行的设备通信协议和信息处理的数据接口协议等。Anthropic 正在推进的模型上下文协议(MCP, Model Context Protocol)就是这方面的代表。此外,符合协议标准的向量数据库和工具库的建设也至关重要。

将信息处理看成 CPU,而将任务执行看成 I/O,那么 Agent 将向着 Agent OS 的方向演进。这其实是 OpenAI 自 Plugins 和 GPTs 以来一直的目标,只是当时 LLM 能力有限,而且具有标准接口的多样化的向量数据库与工具库也没建立起来。

当然,Agent OS 还有很多底层技术待解决。正如冯诺依曼架构依赖程序与数据的统一存储以及完备的指令集,Agent 计算架构也要解决多模态I/O和工具、记忆的统一表示,以及针对 Agent 的指令集构建等问题。这对当前标准 Transformer 基于 token 的序列化表示,以及基于自然语言的指令体系提出了挑战。

Agent OS 的发展还依赖新的生态系统。比如基于大模型能力构建 Agent 平台,由第三方贡献向量数据库和工具库,并允许开发者在平台上构建定制化的Agent。

随着 Agent 生态的完善,将出现多个 Agent 之间的协同工作。不同 Agent 在大型项目中可以互相调用、共享中间结果,将像一个高效的组织一样动态分工、相互协作。

这个阶段,Agent 将演化出更强的协作能力与自治能力,从单点智能向集体智能发展。这也许是第五层- organization 的雏形

4 后记

2025 年被称为 Agent 元年,将见证 AI 的大规模应用落地。DeepSeek 事件发生在 2024 到 2025 之际,正是从模型走向应用和 Agent 发展的关键节点,其意义深远。

如果说 GPT-4 和 o1 相当于纽卡门蒸汽机,首次向世界展示了 AI 的巨大潜力;DeepSeek-V3 和 R1 就像是瓦特蒸汽机,通过优化效率降低了技术使用门槛,让 AI 得以服务大众,进入真正的规模化应用时代。而 Operator 和 Deep Research 展示的,则是这些技术未来可能的使用方式:动态规划、自主使用工具、异步处理和自动执行。

要承认,OpenAI 仍然是技术引领者,仍然承担着推动前沿的角色。它不仅在基础模型的研发上持续突破,在 Agent 生态的构建上也走在前沿。它对 Agent 的理解、技术布局,和未来的发展方向,值得持续关注和思考。

来源:AI科技评论

相关推荐