摘要:2025年4月16日,OpenAI正式发布新一代推理模型o3及轻量版o4-mini,这是继GPT-4Turbo之后,首次从底层架构、训练策略到能力定位全面重构的模型更新。相比以往,这一次的关键词不再是“更强的生成能力”,而是“更清晰的推理路径、更主动的工具调度
在ChatGPT问世近一年半后,OpenAI再次迈出关键一步。
2025年4月16日,OpenAI正式发布新一代推理模型o3及轻量版o4-mini,这是继GPT-4Turbo之后,首次从底层架构、训练策略到能力定位全面重构的模型更新。相比以往,这一次的关键词不再是“更强的生成能力”,而是“更清晰的推理路径、更主动的工具调度、更真实的问题感知”。
官方没有过多渲染“AGI临近”这样的宏大叙事,却实实在在交付了一个“能读图、能思考、能动手”的智能体雏形——它能看懂你上传的手写公式,也能自己查资料、调用工具链、重构任务解法,真正从“助手”迈向“代理者”(Agent)。
如果我们将视野从参数跃迁拉回到结构演化,o3的出现,标志着一个重要趋势:训练范式的极限已现,推理结构的重塑正在成为AI进化的主战场。
OpenAI在这个关键节点推出o3系列,不止是一次模型升级,更像是一种范式上的声明,也是一种技术坐标系的重新标定。
2025年4月16日,OpenAI正式发布新一代推理模型o3及轻量版o4-mini。它们不仅性能领先,更在“结构”与“能力”上开启了范式转折:不再仅仅强调上下文长度和生成流畅度,而是从根本上强调推理路径的清晰性、工具调用的主动性,以及图文信息的融合处理能力。
为更好理解这一变革,我们系统梳理了OpenAI官方发布的产品博客内容,并结合团队在X平台AMA中的回应与解读,从七个方面提炼出o3系列模型在推理方式、结构策略与实际应用中的关键进展,辅以我们对趋势脉络的观察,供开发者与关注AI基础设施演进的读者参考。
OpenAI团队在X平台上举办的AMA总结
强化微调(GA)将很快对公开微调或具有推理模型的强化学习(RL)可用;
OpenAI计划在未来几个月发布一个优秀的开源模型,并欢迎开发者反馈以改进其实用性;
API中的新图像生成功能将很快可用;
API中的o3-mini永远不会支持视觉功能,但o4-mini已经支持视觉功能,目前作为具有图像输入的推理迷你模型可用;
o3今天已在API中提供,更高级的o3-pro模型正在开发中,并将很快发布。
模型性能和用法
GPT-4.1系列模型专门针对编码和代理任务进行训练;模型选择取决于用户的工作流程以及所需的性能、成本和延迟之间的平衡。
o3在处理困难的编码问题或广泛的主题搜索时最为强大,而o4-mini则速度更快,在大多数场景中性能相当,更适合快速交互或较小的编码任务。
o4-mini具有更高的速率限制,在涉及视觉、数学、科学和某些编码任务的评估中与o3相当;o3在处理深奥知识和细微任务方面具有明显优势。
微调GPT-4.1可以提高针对特定用例的性能,减少提示中所需的示例数量;GPT-4.1经过训练以探索可能的解决方案、自我反思和自我纠正。
o3和o4-mini都提供200k个token的上下文窗口,最大输出100k个token,并已通过内部和第三方进行网络安全评估;两者均未达到高风险阈值,但仍然是迄今为止最强大的模型。
模型具有分析图像细节的工具;o3在从PDF中提取结构化数据方面特别有效-如从“注意力就是一切”论文中完美提取表格所示。
与GPT-4.1相比,GPT-4.1-mini在图像分析方面具有更低的成本。
API功能和支持工具
在ResponsesAPI中,开发者消息和系统消息之间的切换是自动处理的;向o3发送系统消息或向GPT-4.1发送开发者消息会导致自动转换。
API中提供了一个推理努力参数,用于控制o系列模型的成本,特别是在它们变得越来越具有代理性时,允许优化工具使用。
目前,ChatCompletions或ResponsesAPI不支持托管工具;然而,一旦支持可用,开发者将获得对启用工具的控制权。
在ResponsesAPI中支持推理摘要(推理跟踪),提供更清晰的可见性,以便在模型解决问题和调用各种工具时了解推理步骤。
SDK自动将Pydantic架构转换为兼容的JSON架构,以处理“additionalProperties”等属性。
在o3和o4-mini的推理阶段,积极使用工具如网络搜索、文件搜索和代码解释器;目前,这些工具在ChatGPT中得到支持,但在API中尚未支持-将很快添加支持。
代理SDK和CodexCLI
OpenAI正在积极开发线程支持以改进代理SDK中的对话历史和保留。
他们对为AgentsSDK提出的低代码平台建议很感兴趣,并邀请反馈最有用的功能。
已支持通过AgentsSDK调用外部模型。
CodexCLI包含多个文档化的批准模式,允许用户按操作或会话选择模式;CodexCLI并非旨在取代Cursor、Windsurf或Lovable等IDE工具;相反,它旨在在用户在主IDE中工作时运行后台任务。
将Codex的编码能力与深度研究能力进行比较取决于所选的模型(o3或o4-mini);Codex专门利用函数调用,直接在用户的计算机上执行命令。
新模型主要在通用浏览、Python/代码执行工具以及有助于开发者的用户定义工具上进行训练。
GPT-4.1和模型命名
GPT-4.1通过API发布而非ChatGPT,因为它专门针对API使用场景进行了优化,例如指令遵循、长上下文管理、编码和工具使用。
GPT-4.5虽然更强大,但速度较慢且计算密集,因此GPT-4.1为开发者提供了一种更快、更经济的选项。
GPT-4.1的一些改进已经集成到ChatGPT中,并将继续集成更多改进。
OpenAI承认了模型名称如“4o”和“o4”之间的命名混淆,并计划不久后简化模型命名。
推理能力的跃升:o3vso1,为什么是质变?
首先要介绍OpenAIo3,它是OpenAI最强大的推理模型,它推动了ChatGPT在编码、数学、科学、视觉感知等领域的发展。它在Codeforces、SWE-bench(无需构建特定于模型的自定义支架)和MMMU等基准测试中创造了新的SOTA。
OpenAIo3非常适合进行多方面分析的复杂查询,而且并不会给出简单的答案。它在分析图像、图表和图形等可视化任务方面表现尤为突出。在外部专家的评估中,o3在高难度的任务中比OpenAIo1少犯20%的大错误,尤其是在编程、商务/咨询和创意构思等领域表现出色。早期的测试人员强调了它作为思想伙伴的严谨分析能力,并强调了它生成和批判性评估新假设的能力--尤其是在生物学、数学和工程学方面。
OpenAIo4-mini是一个较小的模型,为实现快速、经济高效的推理而进行了优化--就其大小和成本而言,它实现了卓越的性能,尤其是在数学、编码和视觉任务方面。它是AIME2024和2025上表现最佳的基准模型。在专家评估中,它在非STEM任务以及数据科学等领域的表现也优于其前身o3-mini。由于效率高,o4-mini比o3支持更高的使用限制,因此对于需要推理的问题来说,o4-mini是高容量、高吞吐量的理想选择。
OpenAIO3是解决复杂编码问题或广泛主题搜索的最佳选择,而o4-mini速度更快,在大多数情况下同样强大,更适合快速交互或较小的编码任务。o3和o4-mini均提供20万个令牌的上下文窗口,最大输出令牌数为10万个,并且已经过内部和第三方的网络安全评估;虽然均未达到高风险阈值,但仍然是目前性能最强的模型。
外部专家评估员对这两个模型的评价是,与前代产品相比,由于智能化程度的提高和网络资源的加入,这两个模型都能更好地跟上指令,并提供更有用、更可验证的回答。与以前的推理模型迭代相比,这两个模型应该会让人感觉更自然、更会说话,特别是它们会参考记忆和过去的对话,使回答更个性化、更相关。
RL再次被证实:强化学习成性能提升主引擎
在OpenAIo3的整个开发过程中,我们观察到大规模强化学习呈现出与GPT系列预训练相同的趋势,即“更多计算=更佳性能”。通过回溯扩展路径,我们在训练计算和推理时间上都增加了一个数量级,但仍能看到明显的性能提升,这验证了模型的性能会随着思考时间的增加而不断提高。
在延迟和成本与OpenAIo1相当的情况下,o3在ChatGPT中提供了更高的性能,而且我们已经验证,如果让它思考更长时间,其性能会继续攀升。
我们还通过强化学习训练这两种模型使用工具--不仅教它们如何使用工具,还教它们推理何时使用工具。它们根据预期结果部署工具的能力,使它们在开放式情境中,尤其是在涉及视觉推理和多步骤工作流程的情境中更有能力。根据早期测试者的报告,这种进步既体现在学术基准上,也体现在实际任务中。
图像即语言:首次实现“视觉参与推理链”
这两款模型首次具备将图像直接融入他们的思维链中的能力。它们不仅能看到图像,还能用图像进行思考。这开启了一种融合视觉和文字推理的新的问题解决方式,体现在它们在多模态基准测试中的一流性能上。
人们可以上传白板、教科书图表或手绘草图的照片,而模型可以对其进行解读--即使图像模糊、颠倒或质量不高。通过使用工具,模型可以在推理过程中对图片进行旋转、缩放或变换等操作。
这些模型在视觉感知任务上具有同类最佳的准确性,使其能够解决以前无法解决的问题。
我们还通过强化学习训练这两种模型使用工具--不仅教它们如何使用工具,还教它们推理何时使用工具。它们根据预期结果部署工具的能力,使它们在开放式情境中,尤其是在涉及视觉推理和多步骤工作流程的情境中更有能力。根据早期测试者的报告,这种进步既体现在学术基准上,也体现在实际任务中。
调用工具不是技能,而是策略判断
OpenAIo3和o4-mini可以访问ChatGPT中的工具,也可以通过API中的函数调用访问用户的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出格式快速生成详细周到的答案--通常不超过一分钟。
例如,用户可能会问:“与去年相比,加州的夏季能源使用情况如何?”。模型可以在网络上搜索公共数据,编写Python代码以建立预测路径,并生成图表或图像,还能解释预测背后的关键因素,将多个工具调用串联起来。通过推理,模型可以对遇到的信息作出必要的反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。
这种灵活的战略方法使模型能够处理需要获取模型内置知识以外的最新信息、扩展推理、综合和跨模态生成输出的任务。
成本效能边界再扩:更强,更便宜
OpenAIo3和o4-mini是我们发布过的最智能的模型,而且它们通常比其前身OpenAIo1和o3-mini更高效。例如,在2025年AIME数学竞赛中,o3的性价比前沿严格优于o1,同样,o4-mini的前沿也严格优于o3-mini。一般来说,我们预计在大多数实际应用中,o3和o4-mini也将分别比o1和o3-mini更智能、更便宜。
模型安全:推理力进化背后的底线重构
模型能力的每一次提升都需要相应的安全性改进。对于OpenAIo3和o4-mini,我们完全重建了安全培训数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。更新后的数据使o3和o4-mini在我们的内部拒绝基准(如指令分级、越狱)上取得了优异的表现。除了在模型拒绝方面表现出色外,我们还开发了系统级缓解措施,以标记前沿风险领域的危险提示。与图像生成方面的早期工作类似,我们训练了一个推理LLM监测器,该监测器根据人类编写的、可解释的安全规范工作。当应用于生物风险时,该监控器在我们的人类红队活动中成功标记了约99%的对话。
我们用迄今为止最严格的安全计划对两种型号进行了压力测试。根据我们更新的“准备框架”,我们对o3和o4-mini进行了框架所涵盖的三个跟踪能力领域的评估:生物与化学、网络安全和人工智能自我改进。根据这些评估结果,我们确定o3和o4-mini在所有三个类别中均低于该框架的“高”阈值。我们在随附的系统卡中公布了这些评估的详细结果。
CodexCLI发布:最小代理化入口
我们还将分享一项新实验:CodexCLI,一种可在终端运行的轻量级编码代理。它可直接在电脑上运行,旨在最大限度地发挥o3和o4-mini等模型的推理能力,并即将支持GPT-4.1等其他API模型。
通过向模型传递屏幕截图或低保真草图,并结合本地代码访问,您可以从命令行获得多模态推理的好处。我们将其视为将模型与用户及其电脑连接起来的最小接口。现在,CodexCLI已在github.com/openai/codex(在新窗口中打开)上完全开源。
与此同时,我们还启动了一项100万美元的计划,以支持使用CodexCLI和OpenAI模型的项目。我们将评估并接受以API点数形式递增的25,000美元资助申请。提案可在此处提交。
从今天起,ChatGPTPlus、Pro和Team用户将在型号选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。ChatGPT企业和教育用户将在一周后获得访问权限。免费用户可以在提交查询之前,通过在构成器中选择“Think”来试用o4-mini。所有计划的费率限制与上一组模型相比保持不变。
o3现已在API中可用,更先进的o3-pro模型正在开发中,预计将在几周后发布支持全部工具的OpenAIo3-pro。目前,专业版用户仍可访问o1-pro。
目前,开发人员还可以通过ChatCompletionsAPI和ResponsesAPI访问o3和o4-mini[某些开发人员需要验证其组织(在新窗口中打开)才能访问这些模型]。ResponsesAPI支持推理摘要,能够保留函数调用周围的推理标记以提高性能,不久还将支持内置工具,如网络搜索、文件搜索和模型推理中的代码解释器。要开始使用,请浏览我们的文档(在新窗口中打开),并随时关注更多更新。
今天的更新反映了我们模型的发展方向:我们正在将o系列的专业推理能力与GPT系列的更多自然对话能力和工具使用能力融合在一起。通过整合这些优势,我们未来的模型将支持无缝、自然的对话,以及主动的工具使用和高级问题解决。
来源:雷霆战神王