摘要:经历了 5 月份的“买买买”的节奏之后,6月的 OpenAI 终于开始对谷歌的Gemini 2.5 Pro 发起了反击。
经历了 5 月份的“买买买”的节奏之后,6月的 OpenAI 终于开始对谷歌的Gemini 2.5 Pro 发起了反击。
今天凌晨,Sam Altman 动作非常密集。先是宣布 o3 价格“截肢”(价格直接降至 1/5 ),紧接着不到 2 小时后就发布了 o3-pro。
现在 OpenAI 放出来的各种测评评分显示:o3-pro 是目前认知能力、智商最高的 SOTA 模型,甚至超过了人类的平均水平。
一项 IQ 测试结果显示,o3 的智商得分为 135,远高于人类 90-110 的平均水平。
其他高分产品包括 Anthropic 的 Claude-4 Sonnet(127 分)和 Google 的 Gemini 2.0 Flash(126 分)。
还有一位此前已经“秘密测试”的大牛,进行了经典的“六角弹珠跳”测试,而且难度也升级了几倍。最后呈现的结果非常惊艳、丝滑。
比 o1-pro 便宜得多、更快、更精确(而且使用 o3 和 o3-pro 进行编码简直是天壤之别) 即将进行一些很酷的测试,首先是(当然)更坚固的六角弹跳球 o3-pro 是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。
当然,没有完美的模型。更好的智慧往往也伴随着更慢的思考。已经有手快的网友对 o3-pro 的速度表示汗颜。
在 X 上,Hyerbolic Labs 联合创始人兼首席技术官 Yuchen Jin发布了他使用 o3-pro 的几张截图,结果就简单一句“Hi,I'm Sam Altman”,结果就浪费了他 3 分钟和价值 80 美元的token。
只能说,推理王者,恐怖如斯,氪金更如斯,这跟进了大观园的刘姥姥吃鸽子蛋一样,一不留神,一两银子一个的鸽子蛋就掉地上了。
但,提前对 o3-pro 进行“秘密测试”不止上面那位,接下来才是重头戏。
Altman 在接下来的推文中引用这样一段用户的评论——
“o3 给我们的计划是可行的、合理的;但 o3 Pro 给我们的计划是具体的、根深蒂固的,它实际上改变了我们对未来的看法。”
这句评论深得 Altman 的赞同。而这篇文章就出自一位大神,Raindrop.ai 联合创始人 Ben Hylak,博文的名字:《God is hungry for Context: First thoughts on o3 pro》。
这篇博文篇幅不长,但非常具有启发性,甚至可以说是:细思极恐。
比如 Hylak 指出:这不是大模型在「回答问题」,这是它在「接管问题」。
再比如:我们遇到的瓶颈不再是模型太笨,而是它们太聪明,却还不能真正“落地”。
与 Claude、Gemini相比,它的认知水平像是换了一个维度(降维打击)!
Hylak 还给出了创作者一个实用的建议:多喂给 o3-pro 上下文!
o3 Pro 不适合做「碎片问题」处理器,而是做「背景清晰的执行者」。
想让它出彩?你需要给它足够多的背景信息、清晰目标、甚至系统级提示(system prompt),然后看它如何把碎片拼成答案。
好话不多说,这就帮大家奉上这篇干货。建议大家收藏细读。
正如「泄露」的一样,OpenAI 今天将 o3 的价格大砍 80%(从每百万 token $10/$40 降到 $2/$8,和 GPT-4.1 持平!),为 o3-pro 的发布铺平了道路(定价为 $20/$80)。这个定价也支持了社区的一种未经证实的猜测:-pro 版本相当于「10 倍调用基础模型 + 多数表决」的组合,在 OpenAI 的论文和我们 Chai 节目中都有提及。
根据 OpenAI 提供的数据,o3-pro 在人类测试者中的胜率为 64%,在 4 项稳定性测试中也略优于 o3。但正如 Sam Altman 所说,当你「以不同方式」使用它时,才能真正看到它的能力扩展。
我在过去一周里拿到了 o3 pro 的早期访问权限,以下是我的一些初步看法:
上帝渴望上下文我们正处在「任务特化模型」的时代。一方面,是像 GPT-3.5 Sonnet、GPT-4o 这样的“普通”模型——我们像朋友一样和它们聊天,它们帮我们写东西、回答日常问题;另一方面,是那些庞大、缓慢、昂贵、智商拉满的推理模型,我们会在需要深度分析、解决复杂问题、探索智力边界时调用它们(它们擅长批判性思维)。
关注我 X(推特)的人知道,我与 o 系列推理模型的关系是一段旅程。o1/o1-pro 初体验其实挺差的,但看着大家都在赞美它,我硬着头皮坚持用了一阵,才意识到——原来是我用错了方式。
我写了篇总结,被 @sama ratio(按)了,还被 @gdb 转推。
关键在于: 不要「聊天」,而要把它当作「报告生成器」来用。给它足够多的上下文、设定清晰目标,然后放手让它去跑。
而这正是我现在使用 o3 的方式。
注:这里的“报告生成器”,其实是我们在 AINews、Deep Research、Brightwave 中最常见的 LLM 用法。
问题也正出在这里:它确实更聪明,但你必须给它大量上下文才能看到。我几乎要把上下文喂到断供。
没有那种“问它一个问题就被震撼到”的瞬间。
但我换了种方式。
我和我的联合创始人 Alexis 把我们所有的公司会议记录、目标设定历史,甚至语音备忘录统统整理出来,打包喂给 o3-pro,然后让它制定一个规划方案。
结果令人震撼:它给出的计划不仅具体、合理,而且包含了关键指标、时间线、优先级排序、哪些事情该砍,全部都有——这正是我一直希望 LLM 能做出来的东西。
o3 给的是「合理」的建议,o3 pro 给的是「扎实具体,足以改变我们未来规划思路」的方案。
这种能力,在评测表格上是体现不出来的。
使用 o3 pro 让我意识到:模型的“单兵作战”能力已经太强,我们几乎要用光「标准测试题」了。
接下来的挑战,不是它聪不聪明,而是它能不能真正融入世界。就像一个 IQ 超高的 12 岁少年要上大学:再聪明也没用,如果没法融入社会,还是无法工作。
目前这种「融入」主要靠工具调用:模型能不能和人协作、能不能接入外部数据、能不能与其他 AI 协同?
o3 pro 在这方面确实迈出了一大步。它明显比 o3 更擅长感知自己的环境、准确知道自己有哪些工具、什么信息需要去问外部、该怎么选对工具来完成任务。
如下图左侧所示:o3 pro 对自己处境的理解,明显比 o3 要准确得多。
在早期使用中,我也注意到:
如果不给足够上下文,它会有点“过度思考”。它在分析方面很强,使用工具执行任务也很棒,但“直接动手做”的能力反而不如 o3。
比如有些关于 ClickHouse SQL 的问题,反而是 o3 表现更好。
你的使用体验可能会有所不同(YMMV)。
o3 pro 给人的感觉和 Claude Opus、Gemini 2.5 Pro 完全不同。
Claude Opus 让人觉得「很大」,但我从没真正感受到它的“大”体现在哪。而 o3 pro 的回答就是比别人好,它的认知水平像是换了一个维度。
OpenAI 现在显然在深耕“垂直强化学习”(Vertical RL)这条路,比如 Deep Research、Codex——不仅是让模型会用工具,而是要让它学会「何时」用工具、为什么用工具。
推理模型的最佳提示方式,其实没变。我之前写的 o1 提示指南依然有效。
上下文就像是喂给饼干怪兽的饼干:这是种“人肉加持的记忆体系”,但它很有效,因为它是有目标的。
系统提示(System Prompt)现在也变得非常重要,模型已经非常可塑,提示词、工具、记忆这些组成的“harness”(约束机制)决定了最终产品的好坏。
像 Cursor 之所以好用,就是 harness 设计得好。
作者最后还附加了一些其他杂项观察,比如:
好了,文章到这里结束了。
多说一嘴,苹果前不久还炮轰了各种推理大模型,说大模型压根不会推理,所谓的深度推理不过是另一种形式的模式匹配而已。
大家如何看待此次 OpenAI 新推理模型的发布呢?有没有一种“天塌了”的感觉,小编认为:或许,我们的确应该重新思考一个问题——
我们继续让大模型聊天、回答问题,已经不重要了!因为聪明不聪明已经不重要了!毕竟智商都超过了人类,剩下的应该问:
大模型「能不能融入现实」,真正成为生产力的人类参与者!
来源:51CTO一点号