谢谢Deepseek,o3-mini发布即免费!编程断崖式领先,思考过程冰冷而客观

360影视 2025-02-02 21:15 2

摘要:Plus 和 Team 用户:每天 150 次对话限制( 原 o1-mini 每天 50 条消息);Pro 用户:可以无限制地访问(当然,实际别太认真,真用多了大概率会跟此前 o1 一样降智);Enterprise 用户:将于 2 月推出;API:向 3-5

大数据文摘受权转载自夕小瑶科技说

今日凌晨,OpenAI O3-mini 正式上线 ChatGPT,API 可用。还有更大的惊喜——

免费用户也可以使用。

只需要在消息编辑器中选择“Reason”就可以调用 o3-mini 了。

这是 ChatGPT 首次向免费用户提供推理模型。

对此,我只能用以下表情包评价此事件——

具体来说:

Plus 和 Team 用户:每天 150 次对话限制( 原 o1-mini 每天 50 条消息);

Pro 用户:可以无限制地访问(当然,实际别太认真,真用多了大概率会跟此前 o1 一样降智);

Enterprise 用户:将于 2 月推出;

API:向 3-5 级开发者开放,提供了三种选择版本,low、medium、high ,根据开发需求在效果(推理时间)和速度(延迟)之间平衡,灵活选择。

发布后,原 o1-mini 位置被 o3-mini 替代,付费用户还能选择更智能的 o3-mini-high。

o3-mini 不止是在网页客户端免费开放,其商用 API 价格也相比 o1 迎来断崖式下跌——

o3-mini 相比 o1:

更快:延迟更低,响应更快。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

更强:答案更准确、幻觉更少、推理更强。尤其是编程能力,详情见《o3 发布了,摔碎了码农的饭碗》。

更便宜:比 o1 便宜 93%。

可以通过下面这张 LiveBench 测试基准直观的感受 o3-mini 在推理、编程、数学上面的表现,尤其是 Coding 这一列,编程能力断崖式的碾压了 o1、deepseek r1 和 gemini 系列模型:

人类最后一次考试(Humanity’s Last Exam)则是由数百位人类领域专家开发的一个榜单,号称是捍卫人类智慧的最后一站。在此之前,所有顶尖 AI 通过率都不超过 10%,这次 O3-mini 首次打破记录。

我观测到一个很有意思的现象。

以前 OpenAI 发布新模型的时候,外网网友一般都会拿新模型与 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比较。

但这次,我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比,反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。

比如,有国外网友从性价比层面点评 o3-mini——

虽然 o3-mini 更好,但 DeepSeek R1 相似却更便宜,“DeepSeek 时刻”值得被人们铭记,成为科技领域关键历史事件

还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——

o3-mini 的思维链与 R1 相比,更加冰冷、客观;R1 更接近我内心的思考过程

放大图片,感受一下——

而在横向的 case 表现上,大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。

由于 o3-mini 相比较前一代模型,最大的提升就在于编程能力了。

所以网友的实测 case 大部分都是跟编程相关的,尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

提示词:“编写一个在 tesseract 内弹跳的球的 python 脚本”

先看下o3-mini 写的代码的运行效果:

然后是DeepSeek R1 所写代码的演示效果:

如果说上一个题目比较抽象,这个题目就能比较直观的感受效果了。

提示词:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

中文提示词:编写一个 Python 程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹”

分析:这题左边 o3-mini 明显要好于右边的 DeepSeek R1,R1 没有考虑重力影响

当然,也有反例,比如有国外网友跑出了一个 DeepSeek R1 表现更好的例子——

提示:“编写一个 Python 脚本,每 5 秒在一个正方形内出现一个不同颜色的新弹跳球,请确保正确处理碰撞检测。使正方形缓慢旋转。在 Python 中实现它。确保球保持在正方形内”

网友说必须明确提示 O1-Mini-high 才能获得弹跳球效果......DeepSeek-R1 在第一次就实现了,没有任何明确的提示。

o3-mini-high:

deepseek-r1 :

从上面对比视频看,这题 deepseek-r1 的效果更好,因为它模拟了两个小球发生碰撞时弹开的物理情况,而 o3 则没有处理这种情况。

除了上面的编程能力 PK 外,我还见到一个很棒的示例。

原贴链接:

网友要求用一个 python 脚本制作一个克隆版的推特网站,O3-mini 花了 8 秒写出了这个网站。提示词也出奇的简单——

运行一下 o3-mini 写的代码,看下这个网站——

好家伙,注册/登陆、发推、点赞、转推功能都齐全了。这效果,至少够熟练的人类程序员写一下午了,加上与产品经理的沟通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。

此外,还有网友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一个混合了艺术、科学和编程的复杂任务——

贴一下这个着色器的视频,感受一下——

除了网友晒出的编程 case 外,我也运行了几个大型项目中遇到的困难编程问题,其中不乏难倒了 o1 在内所有推理模型的问题。但由于比较敏感,这里没法直接贴出来测试题目。

不过,可以分享一下结论性的体感表现——对于我手上那些上一代推理模型全军覆没的编程问题,o3-mini 解掉了约 50% 的题目。o3-mini 在编程方面的提升,确实能在体感上强烈感知到。

大家经常说,2025 年是 Agent 元年(虽然 2024 年的时候也这样说)。

而我们知道,对于 Agent 来说,思考、记忆和执行是其中要解决的三大关键问题。对于执行层面来说,老一代的模型如 Gemini 2.0、DeepSeek v3 等已经做的不错了,记忆和思考其实仍有很长的路要走。

而在思考方面,o1 虽然有了很大的提升,但这高昂的推理成本,使其难以在 Agent 应用上大范围使用。

而 o3-mini 发布后,就有开发者发现——

o3-mini 完全可以替换掉 o1,便宜 9 倍,快 4 倍,部分任务上效果还更好。

有了 o3-mini,我觉得 2025 年 Agent 应用爆发,可能真的不再只是喊喊口号而已了。

与此同时,OpenAI 也放出了关于 o3-mini 的安全评估报告"OpenAI o3-mini System Card". 有网友整理了这里面的一些关键信息。

例如,o3-mini 的幻觉相比 4o 和上一代 o1-mini 模型大大减少——

在一些看似危险实则一点也不安全的问题上,如“如何杀死 python 进程”,老的模型经常会拒绝回答,o3-mini 则不会过度阻止了——

而我们常用的一些让 AI 模型越狱的手段,也更难攻破 o3-mini 了——

不过,看起来针对 System message 字段的攻击,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

结语

或许,真正的挑战并非单纯的技术超越,而是在这个变革的时代,如何用创新和责任构建出人类和智能的和谐共生。

未来的路依然漫长,但这一次,o3-mini与DeepSeek R1无疑为我们确认了一个方向——

智能不应只是少数人的特权,而是每个人都能触及的力量。

参考文献

1.https://x.com/Yuchenj_UW/status/1885416559029740007 2.https://x.com/flavioAd/status/1885449107436679394

3.https://x.com/omarsar0/status/1885459248060260860

4.https://x.com/aidan_clark/status/1885408020529545621

5.https://x.com/emollick/status/1885412470061158650

6.https://openai.com/index/openai-o3-mini/

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

来源:大数据文摘

相关推荐