OpenAI 深夜推出最强模型主打 Agent 功能，顺便又来尝试革程序员的命了

摘要：4 月 17 日凌晨，OpenAI 正式宣布推出目前 OpenAI 系列里能力最强的推理模型——o3 模型和 o4-mini 模型。

4 月 17 日凌晨，OpenAI 正式宣布推出目前 OpenAI 系列里能力最强的推理模型——o3 模型和 o4-mini 模型。

去年 12 月，OpenAI 就预热过 o3 推理模型，当时强调的重点是 o3 模型在解决困难问题上的能力，要显著强于 OpenAI 第一代推理模型 o1。

而此次正式发布中，OpenAI 不仅强调了 o3 模型在能力上的领先性，同时还强调了 o3 的 Agent 能力，且强调 o3 是第一代能够在思维链中使用图像进行推理的模型。

自主调用工具是 Agent 能力最重要的体现。OpenAI 表示，曾看到 o3 为了解一个特别难的任务，连续调用了大约 600 次工具。

随着 OpenAI 的 O 系列、DeepSeek R1 等推理模型日趋成熟，业内普遍认为，只需一条指令即可完成整套任务的 AI Agent 能力将迎来显著提升。

相比于 Google，Anthropic 等从去年就开始宣传 Agent 能力，甚至已经开始推动 MCP、A2A 等 Agent 协议普及的公司，OpenAI 之前在 Agent 能力上的布局相对缺失。而今天的发布，证明 OpenAI 在 Agent 能力上，仍然有自己的思考和布局。

OpenAI 宣布，从今天开始，Plus、Pro 和 Team 用户就可以使用 o3 模型和 o4-mini 模型了，接下来几周还会推出 o3-pro 模型，替代过去的 o1-pro 模型。

在彩蛋环节，OpenAI 还表示，未来将发布一系列编程工具，重新定义 AI 时代的编程，首发的是一个叫 Codex CLI 的开源轻量化编程 agent。Codex CLI 可以直接使用 OpenAI 的模型（最终包括 o3 和 o4-mini），接管本地计算机终端命令行界面，直接进行代码编写和文件移动等等。

OpenAI 的展示很有意念编程（vibe coding）的味道了：直接在网页上截图了一个别人编程好的效果图，丢给 Codex CLI，跟它说做一个 html 文件复现这个效果，并做一些改动。很快，Codex CLI 就自己写了代码，调用了系统工具，复现出了一个类似的效果。

OpenAI 今日的发布大致符合预期——o3 和 o4-mini 已经预热多时，视觉推理与 Agent 能力也早已在其他公司的模型中有所体现。

不过，从今天的发布中仍能看出 OpenAI 在 Agent 等前沿方向上的布局节奏，以及将已有能力产品化的独特能力。

OpenAI 的模型迭代，也再一次重新肯定了后训练 Scaling Law 的存在。目前看来，AI 模型在接下来几年，仍然会出现能力的快速进化，还未到达瓶颈。

OpenAI 此次发布的一大亮点在于 Agent 的能力。最初的两个展示都与工具调用能力有关。第一个展示是研究员给了 OpenAI 一个十年前写过的论文图片，让 o3 模型找到一个特定的结果，并和最新的研究成果进行比较。o3 模型首先利用内置的视觉推理能力，放大图片，找到了研究员想要的特定结果，然后根据图片中的内容进行推理，算出了论文推导的数值，然后使用搜索功能，查找了十篇论文，比较了最新研究成果与作者十年前论文的结果的区别，最后给出了自己的建议。

第二个演示是研究员问 OpenAI，根据我的兴趣，读新闻，告诉我一些我可能感兴趣的事情。这个演示则利用的是 OpenAI 内置的记忆工具——OpenAI 几天前刚刚宣布 OpenAI 的模型目前有了可以访问用户全量记忆的能力。o3 模型先是访问记忆后，找出用户喜欢水肺潜水和弹奏音乐，然后利用搜索功能，找到了一条交叉两条兴趣的新闻：研究人员会录下健康珊瑚礁的声音，然后用水下扬声器在海里播放这些声音，以保护珊瑚。最后 o3 模型使用了 OpenAI 的 canvas 工具和数据分析工具，生成了一个漂亮的博客界面，完成了任务。

可以看到，在 OpenAI 目前的布局当中，Agent 能力更多的是调用 OpenAI 的内部工具。不过，在基础的工具调用能力水平存在的情况下，如果想要接入其他工具，似乎也并不是很难。OpenAI 3 月刚刚宣布接入 MCP 协议，为之后使用其他工具打下了基础。

o4-mini 表现出色，RL 的 Scaling Law 仍在起作用虽然在 12 月 OpenAI 曾经预热过 o3 模型的具体能力，这次正式发布，官方表示因为进行了「对推理成本和实用性做了大量优化」，在评测结果上，OpenAI 表示可能会有差别。在发布会直播中，OpenAI 展示了几组测试结果，o3 模型和 o4-mini 模型在数学能力、代码能力和多模态能力上都表现出色：

值得注意的是，在多个维度上，o4-mini 的表现并不逊色于 o3。尤其是在高难度数学竞赛 AMI 中，o4-mini 结合工具的准确率达到了 99%，几乎逼近评测上限。这似乎意味着，o4 模型，在未来一定会有更加惊人的表现。OpenAI 研究员姚顺雨近期在《The Second Half》一文中引用了研究员 Jason Wei 的图表，标注了过去几年 AI 能力的飞跃式增长：

AI 在过去五年里不断刷新各类基准测试的成绩姚顺雨表示，在突破了强化学习泛化的问题后，过去曾经对于 AI 十分困难的问题，正在土崩瓦解，AI 能力的爬坡正在变得更加可预测。「下一个 O 系列模型无需明确针对该任务即可将其提升 30%。」OpenAI 的直播也确认了这一点。OpenAI 表示，在 o3 模型上的训练计算量是 o1 模型的 10 倍以上。随着 OpenAI 沿着「计算量」这条轴线不断扩展，像 AMI 这样的评测成绩也持续上升。Scaling Law 看起来没有尽头，而人类之前设计的基准线，已经快被用完了，甚至已经不一定有测评意义了。OpenAI 再一次确认，AI 的发展不会停，顶尖模型的探索会让更强的 AI 能力不断下放给用户。在相同推理成本下，o4-mini 的表现明显优于 o3-mini，且 o4-mini 是多模态模型。相同的推理成本，o3 模型的性能好于 o1 模型。模型一代代迭代，AI 的这把科技之火的燃料不会断。

颠覆编程？顶尖的模型，已经开始干人类顶级科研人员的活了。对于广众而言，更强的模型，能带来的更切实的能力是什么？OpenAI 这次似乎瞄准了编程这个场景。OpenAI 在彩蛋中宣布，接下来将发布一系列产品，颠覆编程。根据 OpenAI CFO 近期的发言，OpenAI 似乎想结合目前模型的 Agent 能力，和极强的编程能力，做出一整套编程 Agent，能够直接对软件进行编程甚至测试。在演示中，OpenAI 已经给了一个类似的案例，展示了一个模型在虚拟机里，调用工具进行编程的例子，这个案例的思路与之前爆火的 Manus 的思路接近。OpenAI 给了模型一个虚拟机的终端命令行权限，要求模型定位一个 bug。当把这个 bug 报告输入给模型后，模型可以使用终端命令行访问整个代码库。先验证 bug 能否复现，确认问题存在后，模型开始代码里四处浏览，尝试理解整个仓库的结构，比如使用命令行 ls 查看文件，cat 打开文件看内容，或者直接查看 Python 文件中的函数，最后找到了 bug，成功修复了问题。目前，这样的能力，仍然没有被开放出来。OpenAI 最新发布的编程 agent，采取了调用本地终端命令行界面的方式，进行类似的操作。可以使用「建议模式」，也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式，看起来则更有一种贾维斯的感觉。

AI 两分钟内只通过图片复刻出的程序如果说以往的 Copilot 更像是「代码自动补全」，那今年各家模型争夺的重点，很可能是「代码自动完成」。编程 + Agent，会不会成为第一个真正释放生产力的通用智能场景？起码现在看来，OpenAI 是这么押注的。*头图来源：视觉中国本文为极客公园原创文章，转载请联系极客君微信 geekparkGO极客一问