接近“天才水平”?!OpenAI新模型o3和o4-mini称霸Aider排行榜,附赠开源编码工具

360影视 欧美动漫 2025-04-17 20:50 2

摘要:今天,OpenAI联合创始人Greg Brockman带队开播进行了产品介绍,开发人员称o3和o4-mini是OpenAI迄今为止发布的最智能模型,代表着ChatGPT能力的又一次重大飞跃。

大数据文摘受权转载自头部科技

文丨谭梓馨

正如网友所预测的那样,OpenAI全新一代顶尖模型o3o4-mini终于揭开面纱。

今天,OpenAI联合创始人Greg Brockman带队开播进行了产品介绍,开发人员称o3o4-mini是OpenAI迄今为止发布的最智能模型,代表着ChatGPT能力的又一次重大飞跃。

这也是OpenAI推理模型首次能够智能调度使用和组合ChatGPT中的每个工具——包括搜索网页、使用Python分析文件和其他数据、对视觉输入进行深度推理,以及生成图像等等,从而能更有效地帮助用户处理多方面的复杂问题。

即日起,o3、o4-mini和o4-mini-high将会取代o1、o3-mini和o3-mini-high,开发者也可通过Chat Completions API和Responses API进行调用。

o3和o4-mini非常擅长编码,因此OpenAI还同步推出了Codex CLI,一个可以在终端中运行的开源轻量级编码代理,Greg Brockman表示,Codex CLI是未来几个月内要发布的一系列工具中的第一个,它展示了编程的未来。

新品发布后,OpenAI CEO Sam Altman转发用户的评价称“达到或接近天才水平”,数千万美元花得值,并表示会在未来几周内把o3-pro发布到Pro用户层。

最强多模式推理

将最先进的推理能力与完全的工具访问权限相结合,让o3和o4-mini模型在实际任务和各大学术基准测试中表现出色。

OpenAI这次推出o3和o4-mini模型的一大亮点在于“图像思考”,可以把用户上传的图片直接集成到思路链中,这意味着AI模型不只是看到图像,还能识别出关键信息并用它来思考,图片可以是白板照片、教科书图表或手绘草图。

ChatGPT增强的视觉感知能够全面、准确和可靠地分析图像,并且将高级推理与网页搜索、图像处理(自动缩放、裁剪、翻转或增强图像)等工具无缝结合,即使照片质量不太好,也能从中提取关键信息和分析洞见,可以无缝融合视觉和文本推理,标志着模型在多模式推理方面迈出重要一步。

这个“图像思考”功能有多强?OpenAI展示了o3的一些实际用例,比如识别远处笔记本上的手写字体,即便是人眼也很难分辨的内容,o3模型通过拉近缩放旋转图像,成功识别出了上面写的内容。

不仅能精准识别,而且识别之后还能帮助用户去分析解决实际问题,比如当它识别到手写的内容是计算费曼图振幅的图示,它就能帮用户提供解题思路。

当视觉推理与Python数据分析、网络搜索、图像生成等其他工具协同工作,还可以有创造性地解决更复杂的问题,为用户提供多模式代理体验。

比如让o3分析一个迷宫图,找出最近的走出路线,o3会将图像转化为程序问题进行破解处理,然后按照用户要求绘制出路线。

在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知基元(VLM为盲)以及视觉搜索(V*)等不同的测试基准上,o3和o4-mini均创下了新的最高水平,在V*测试中,视觉推理方法达到了95.7%的准确率。

当然,在o3和o4-mini之间也存在定位上的差异化。

OpenAI官方表示,o3是一个跨多个领域的强大模型,为编码、数学、科学和视觉推理任务设定了新的行业标准。在外部专家的评估中,o3在困难的现实任务中比o1模型犯的错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色,而且在生物学、数学和工程学知识领域也非常厉害。

o4-mini则是一款体型更小的模型,专为快速、经济高效的推理而优化,它以其尺寸和成本实现了卓越性能,尤其是在数学、编程和视觉任务方面,它支持比o3更高的使用限制,使其成为一个有性价比的高容量、高吞吐量解决方案,适合所有需要推理能力的用户。

而且,o3和o4-mini相比较它们的前辈模型o1和o3-mini成本与性能比更高效,更经济。尤其是o3模型,几乎是对o1模型质的改进,提升幅度非常大。

OpenAI今天的上新反映了其模型的发展方向:将O系列的专业推理能力与GPT系列的自然对话能力和工具使用能力融合在一起,通过整合这些优势,未来的AI模型将支持无缝、自然的对话,以及主动的工具使用和高级问题解决能力。

重新霸榜,逼近AGI

值得关注的是,在业内备受关注的Aider多语言编码基准测试排行榜上,OpenAI依靠o3和o4-mini重回巅峰宝座,把谷歌Gemini 2.5 Pro和Anthropic的claude 3.7 sonnet都压了一头,也进一步拉开了与DeepSeek R1和V3-0324之间的差距,打了一次硬核翻身仗。

来自网友的旋转弹跳小球测试,在完全相同的提示语之下对顶级推理模型进行测试,OpenAI这一回合PK完胜。

还有更离谱的测试,有用户在上班路上随手拍了张照片测试视觉推理能力,让o3分析其所在位置,它首先截取放大了图片,分析图中的车牌号、门店关键信息,然后搜索相关网页一步步缩小搜索范围,最后准确给出了位置信息,网友们直呼这种“柯南式”的分析能力有点恐怖。

还有用户丢给o3一张车内照片,询问汽车的品牌和型号,o3经过多次裁剪图片,不停调用Python写代码分析多个细节,进行了大量网络搜索对比,4分钟内分析出了正确答案。

杰克逊实验室生物医学科学家Derya Unutmaz发帖表示,o3的智能程度已经达到或接近天才的水平了,其新型代理式工具能够以令人难以置信的推理和精度轻松处理多步骤任务,并根据需要生成复杂的、具有洞察力和科学基础的假设。

Derya Unutmaz向o3提出一些颇具挑战性的临床或医学问题时,它的回答听起来就像直接来自专科医生:精准、全面、基于证据的自信,而且非常专业,就像一位该领域的真正专家,智能程度优于Gemini 2.5 pro。

o3还可以帮助用户推理解决一些数学推导问题,例如它会根据图中已知的绿色柱状体参数信息推算出光线的斜率,然后再去推导红色柱状体的高度,对图像的理解思考能力进入了新阶段。

不少网友直呼,o3是一次质的飞跃,代表了AI大模型的下一个阶别,可能已经算是AGI了。

再次提振开源影响力

除了新模型,OpenAI今天还罕见地抛出一款轻量级编码代理开源工具。

由于o3和o4-min非常擅长编码,因此OpenAI特意发布了一款实验性的新产品Codex CLI,它可以直接在用户的计算机上运行,旨在最大限度地提升o3和o4-mini等模型的推理能力,目前该项目已在github上开源可访问,不到一天时间内已超11K星,非常火爆。

具体而言,Codex CLI可以将自然语言转化为可执行代码,开发者只需要告诉Codex CLI要构建、修复或解释什么,然后它会将想法变成现实,Codex CLI可用来快速构建应用程序、修复错误并更快地理解代码库,并且兼容所有o3、o4-mini和GPT-4.1等新模型。

Codex CLI专为那些已经习惯使用本地AI终端,并希望拥有ChatGPT级别推理能力实际运行代码、操作文件和迭代能力的开发者打造,这跟国内已经有的无代码开发平台类似,是一种聊天驱动的开发方式,能够理解并执行开发者的代码库。

为了在开源社区打开影响力,OpenAI还为此推出一项价值100万美元的计划,以支持使用Codex及其他OpenAI模型的开源项目,资助会以每次2.5万美元的API使用额度形式发放。

除了多模式推理,从本次发布的技术趋势来看,OpenAI正在加速把所有主流AI Agent功能与顶尖模型进行深度融合内化。

为了增强模型的竞争力,其他竞争对手如谷歌可能也会快速跟进,这将对一些第三方AI Agent产品发展带来影响,例如Manus、MainFunc等等,它们依托顶尖模型来集成各种功能提供面对用户的产品,如果大模型本身就具备了强大的多模式AI Agent能力,可能就不太需要其他“中间商”了。

而且为了抵御DeepSeek的开源攻势,OpenAI正在借助其在开发者群体中的影响力加强在开源社区的影响力渗透,可谓下了一步好棋。

尽管GPT-5尚未到来,但o3已经再次提高了大模型竞争对垒高度,谷歌、Anthropic或开源之王DeepSeek将会如何出招对战OpenAI可以一起期待下。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

来源:大数据文摘一点号

相关推荐