亲测OpenAI o3的10个案例,20美金/月雇跨学科博士做助理

360影视 动漫周边 2025-04-18 15:15 2

摘要:OpenAI 最新发布的 o3 模型,以其显著提升的推理能力、多模态处理能力和工具调用能力,再次引领了人工智能领域的前沿发展。本文通过亲测 10 个实际案例,深入展示了 o3 在复杂任务处理、多学科知识应用、创意生成和数据分析等场景下的强大表现。从化身福尔摩斯

OpenAI 最新发布的 o3 模型,以其显著提升的推理能力、多模态处理能力和工具调用能力,再次引领了人工智能领域的前沿发展。本文通过亲测 10 个实际案例,深入展示了 o3 在复杂任务处理、多学科知识应用、创意生成和数据分析等场景下的强大表现。从化身福尔摩斯分析图片到生成深度研究报告,o3 的能力不仅令人印象深刻,更仿佛为用户提供了 20 美金 / 月就能雇佣的跨学科博士助理。这些案例不仅揭示了 o3 的技术进步,也为我们描绘了 AI 在未来工作和生活中可能扮演的角色。

一直以来,OpenAI 的o1模型都是推理模型的巅峰,其DeepResearch功能就是凭借o系列的基座能力,在市场上赢得了口碑。不过,可能生成报告的模式,让大家始终觉得搜索升级没啥看头,大家很难体会AI的研究能力。在昨晚发布的o3和o4、o4 mini模型中,实现了以下能力的跃迁:

整体推理能力:对真实、复杂任务的专家打分显示,o3 的重大错误比上一代 o1 少 ≈20 %

视觉多模态:在大学水平的多学科视觉推理基准 MMMU,o3 82.9 % → GPT‑4 34.9 %,绝对提升 ≈48 分,相当于 2.4 × 的相对提升竞赛数学:AIME 2024 单次作答 o3 91.6 %,而 GPT‑4o 只有 12 % 左右,提升 >7 ×上下文长度:o3 200 k 输入窗口 vs GPT‑4 8 k,且输入/输出 token 价格仅为 GPT‑4 的约 1/3‑2/3

AI呈现了一定程度的研究能力,为了能让大家更直观感受到大模型在各个领域场景下,高水平处理任务的能力。

鲸哥实测了10个案例,我们能看到o3的分步推理思考过程,很多复杂的问题真正在研究,以及利用工具解决!

1、化身福尔摩斯,看图猜测背景信息:

鲸哥在o3上传了一张菜单,要求ChatGPT猜出来是哪家饭店。

可以看到o3分析了菜品和价格,并搜索了大众点评的数据,提出指纹式的菜名+价格组合只有在四季民福出现,最终答对了!

2、识别图片内容信息,成为植物学家:

识图能力在此前的众多大模型中都已经具备,但这次是给大模型加大难度,用一大束花,让GPT识别都有哪些花束。

最终o3识别出了8种主要的花束,展现了对复杂内容的理解。

3、做考公 图推题,o3当小学题题目做

在考公题目中,经常有图推题出现。这些题目往往具有一定的难度,考验模型对图片理解以及意识推理的能力。

这道考公题并不容易,GPT用几种形状来找规律,最终选择了答案D。当然,这道题也有争议,粉笔网给出的答案是D,但很多人认为是B。

只是19秒做完这题,o3估计觉得这题没多复杂,都是小学生题。

4、数学计算能力更强,重大错误比o1强20%

在数学计算中,此前o1开始计算哥德巴赫猜想,让大家吃了一惊。当然,也没有计算出来,却显示出推理大模型的强悍之处。

鲸哥拿一道DeepSeeK做错的数学题,考验o3的进化能力。

这道题不太难,但是DS的幻觉率需要人为矫正。

而o3很快就得出了正确答案,数学题是推理模型的阿克琉斯之踵,o3有进步。

5、调用OpenAI内部工具,除了不能做视频

在这里,我们先让o3深度调研下『2025年北京夏天可能火的食物』这一主题。o3从全网内容中获取了最新的5款食物销量,得出了结论。

o3最看好乳茶2.0这款产品,接着让o3做一张轻乳茶2.0的宣传海报,o3会思考任务交代中没有明确提示要Midjourney生成,那就是不仅要生成Prompt,还需要调用4o模型直接生成图片。

接着我们让o3直接生成轻乳茶的电商网页,以动态可视化的HTML网页形式运行。现在GPT还可以直接运行代码,实时预览,很方便。

可以看到右下角还有修复提示,这也是本次o3的重要提升,当它意识到程序有Bug时,就会实时提示可以修复真实代码,这对于AI编程落地很关键。

6、创意视频生成,后续结合Sora才有前景

o3其实作为LLM,本身不支持生成视频,但是我们还是要求他生成视频,考验它解决问题的思路,这里鲸哥给到的是飞机和鱼的创意故事。

o3是逐帧生成了图片,然后做成gif形式的视频。

可以看到最终生成的视频内容,是一架飞机路过,伸出了鱼钩,钓起鱼飞走了。这个创意让我想起来一个歌:『海鸟与鱼相爱,只是一场意外』

7、代码能力和真实物理能力测试

这次公告中,官方称在“修 bug”基准 SWE中,o3 解决 69.1 % 问题,而 GPT‑4o 只解决 33 %左右,代码能力 ≈2 倍提升。

实测中,生成代码的审美确实没什么进步,以下是o3生成的100个小球碰撞的物理实验,这个效果差强人意。

和下图对比看,相比o1的还逊色不少,o系列模型确实在代码编程方面,始终没有超越Claude3.7。尤其前端UI这块,水平还是差不少,GPT-4.1也不行。

8、科技商业问题推理,最终写成文章

在这道题中,鲸哥用比较有门槛的科技商业文作为写作题目,而且要求中间插入数据分析以及战略路径归纳,最终得出结论。

生成的分析深度还可以,只是没学会吴晓波老师的文笔。

一直以来,ChatGPT的写作能力都略逊Claude3.7,从目前看,语言的风格化以及润色程度,比3.7确实还有距离,但是数据和逻辑分析,以及概念的引用都不错。像是个不经常写文章,而是经常做研究的博士,写出来比较硬的内容。

9、视频分析能力,对多媒体的理解能力

我们在Youtube上找了个万人大合唱的合集,然后让他分析这是什么内容,以及为什么能爆火。

o3解读出了都包括哪些歌,然后分析了爆火的底层逻辑。感觉对于IP孵化类博主是个福音,大家以后能用o3直接写爆款分析课程了。

10、生成深度研究报告,o3表现更好

我们调用o3模型的深度思考能力,生成了一份行业报告。o3用了不到20分钟生成了这份1万多字的报告。

还是先思考后搜索的思路,内容较o1版也有一定程度的提升。

报告全文在这里:https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

o4mini更适合批量客服回答等强调性价比场景,所以本文没有测试。Altman还提到,o3 Pro版本将在未来几周内到达,能力应该比本文测试的o3更强,但也意味着价格更贵。

在Plus账号中,你能大范围使用ChatGPT 的所有能力,尤其o3的20美金每月费用,相当于花近200多元雇佣了一个跨学科博士生在身边做助理,大家觉得值不值呢?

来源:人人都是产品经理

相关推荐