OpenAI产品线又有新动作了:o3价格打骨折,开源模型再延期

360影视 国产动漫 2025-06-11 20:35 4

摘要:当地时间 6 月 10 日,OpenAI 正式下调了其 o3 模型的 API 价格。调整后,每百万输入 token 的价格从 10 美元降至 2 美元,输出 token 的价格从 40 美元降至 8 美元。这次 80% 的降价,让 o3 的成本与 GPT-4.

OpenAI 前脚刚大幅下调了 o3 模型的价格,后脚就推出了其新的最强模型 o3-Pro。

当地时间 6 月 10 日,OpenAI 正式下调了其 o3 模型的 API 价格。调整后,每百万输入 token 的价格从 10 美元降至 2 美元,输出 token 的价格从 40 美元降至 8 美元。这次 80% 的降价,让 o3 的成本与 GPT-4.1 模型保持一致。

图丨o3 的价格调整(来源:OpenAI)

在宣布 o3 降价的同时,OpenAI 推出了 o3-pro 模型。该模型在 API 和 ChatGPT Pro/Team 用户的选择列表中取代了此前的 o1-pro。企业版和教育版用户则会在一周后获得访问权限(Plus 用户暂时无缘使用)。与 o3 的降价策略形成鲜明对比,o3-pro 的定价显著提高:每百万输入 token 为 20 美元,输出 token 为 80 美元,是调整后 o3 价格的十倍。

根据 OpenAI 官方发布的评估数据,o3-pro 在多个维度的测试中均优于其前身。

在与人类测试者的对比评估中,o3-pro 在所有查询类别中的综合胜率达到了 64%。在具体的专业领域,其优势更为明显:在科学分析和数据分析任务中,胜率分别达到 64.9% 和 64.3%;在个人写作和计算机编程方面,胜率则为 66.7% 和 62.7%。

图丨o3-Pro 的评估表现(来源:OpenAI)

在“4/4 可靠性”基准测试中,o3-pro 同样表现出突出。这项测试要求模型在四次独立尝试中全部正确回答同一个问题才算通过。在竞争性数学(AIME 2024)和博士级科学问题(GPQA Diamond)这类高难度测试中,o3-pro 的可靠性得分分别达到了 90% 和 76%,均高于 o3 和 o1-pro。在编程能力(Codeforces)的评估中,o3-pro 的 Elo 等级分也显著高于前代模型,达到了 2301 分。这些硬性指标从数据层面证实了 o3-pro 在处理复杂、精确任务时的可靠性优势。

许多用户的实测也印证了其强大能力。

不过,能力的提升也带来了时间和成本的增加。这一点在早期用户的反馈中得到了证实。部分开发者反映该模型响应缓慢且费用高昂。

例如,Hyerbolic Labs 的 CTO Yuchen Jin 提到,一句简单的“Hi,I'm Sam Altman”就足足让模型思考了将近四分钟,甚至最长能达到 13 分钟。

图丨相关推文(来源:X)

OpenAI 官方对此进行了解释,称 o3-pro 的设计目标是“进行更长时间的思考,并提供最可靠的响应”。公司表示,o3-pro 能够访问更多的软件工具,包括网页搜索、文件分析、视觉输入推理和 Python 代码执行,这些能力的调用使其响应时间比普通模型更长。OpenAI 的官方建议是,将 o3-pro 用于“可靠性比速度更重要的挑战性问题”,认为在这些场景下,额外的等待时间是值得的。

对于能够适应其特性的用户,o3-pro 就表现出了不俗的能力。

Raindrop 公司的联合创始人 Ben Hylak 在一篇详细的评测中分享了他的使用经验。他认为,使用 o3-pro 的正确方式是“像使用报告生成器一样”,即一次性提供大量、详尽的上下文信息,而不是进行来回的对话式交流。他将这一核心思想概括为“模型需要上下文”(God is hungry for context)。

为了验证这一观点,Hylak 和他的团队进行了一项测试。他们收集了公司过往的规划会议纪要、目标文档和语音备忘录,将这些海量、具体的内部信息作为上下文,输入给 o3-pro,并要求其制定一份公司未来发展计划。据 Hylak 描述,o3-pro 输出的计划非常具体且切合实际,包含了可量化的指标、明确的时间线和任务优先级,甚至对哪些项目应该停止给出了坚决的建议。他认为,这份计划的深度和可操作性,已经“真正改变了我们对未来的思考方式”。

o3-pro 之所以能做到这一点,关键在于其更强的环境感知和工具调用能力。它能更好地理解自身所处的运行环境和能力的边界。Hylak 提供了两个例子:

1. 环境感知:当被要求渲染一段 HTML 代码时,o3-pro 没有像其他模型一样尝试在不支持的环境中执行,而是明确告知用户它无法直接渲染,并清晰地描述了代码的预期视觉效果,同时指导用户如何本地查看。

图丨 o3-Pro(左)比 o3(右)更清楚其环境的限制(来源:Latent Space)

2. 智能澄清与工具引导:当被要求查找关于作家博尔赫斯的最新文章时,o3-pro 首先主动提问以澄清具体指代的人物和用户需求。在发现自身工具链无法直接完成实时搜索后,它没有给出“找不到”的简单答复,而是为用户生成了一个精确的谷歌搜索指令,帮助用户自行解决问题。

这些例子表明,o3-pro 在辨别环境、沟通自身能力、在信息不足时提问以及为任务选择合适工具等方面,相比前代模型有了显著进步。它更像一个能够与人类、外部数据和其他工具协作的智能体。

当然,Hylak 也提到,在上下文不足时,o3-pro 可能会对简单问题“过度思考”,且它更擅长作为任务的“编排者”而非直接的执行者。这进一步证实了新的交互模式:用户需要提供高质量的上下文和清晰的目标,AI 则在此基础上进行深度分析和规划。

在 OpenAI 进行产品线调整的同一时期,其 CEO 萨姆·奥特曼发表了一篇题为《温和的奇点》(The Gentle Singularity)的博文,阐述了他对当前 AI 技术发展阶段的个人看法。

图丨相关推文(来源:Sam Altman)

文章的核心观点是,技术奇点并非一个突然爆发、颠覆一切的戏剧性事件,而是一个“温和”的、渐进的、并且已经开始的过程。他描述道:“我们已经越过了事件视界;起飞已经开始……至少到目前为止,它比想象中要平淡得多。”

奥特曼用“奇迹变成常态,然后成为基本要求”来形容这个进程。他认为,社会对于 AI 能力的期望值会快速适应和提升。今天看来令人惊叹的技术,明天可能就会成为标准配置。这种快速的常态化,是“温和奇点”的主要特征。

他认为,驱动这一进程的核心是一种“递归式自我改进”的早期形式。即,人类已经可以利用现有的 AI 工具来辅助和加速 AI 自身的研究。如果 AI 能帮助科学家将原本需要数年的研究周期缩短到数月甚至数周,那么整体的科技进步速度将发生质变。

在博文中,奥特曼展望了一个“智能和能源”都将变得极其丰富的未来。他认为,科学进步是整体社会进步的最大驱动力,而 AI 将极大地加速科学进步。他还提出了一个观点,即在未来,那些拥有好想法但缺乏技术实现能力的人(他称之为“the idea guys”),将迎来他们的时代,因为强大的 AI 工具可以帮助他们将想法变为现实。

当然,奥特曼也承认这条道路上面临着巨大的挑战。他重申了解决“对齐问题”(alignment problem)的重要性,即确保 AI 系统的发展和行为符合人类的长期集体意愿。同时,他也强调了将 AI 技术带来的益处进行广泛分配的必要性。

One more thing,OpenAI 还宣布推迟其备受期待的开源模型的发布时间。奥特曼表示,由于研究上取得了“意想不到的”进展,需要更多时间完善,因此发布将延后至夏末。

参考资料:

1.https://platform.openai.com/docs/models/o3-pro

2.https://www.latent.space/p/o3-pro

3.https://blog.samaltman.com/the-gentle-singularity

运营/排版:何晨龙

来源:DeepTech深科技一点号

相关推荐