亲测OpenAI o3的10个案例，20美金/月雇跨学科博士做助理

摘要：OpenAI 最新发布的 o3 模型，以其显著提升的推理能力、多模态处理能力和工具调用能力，再次引领了人工智能领域的前沿发展。本文通过亲测 10 个实际案例，深入展示了 o3 在复杂任务处理、多学科知识应用、创意生成和数据分析等场景下的强大表现。从化身福尔摩斯

OpenAI 最新发布的 o3 模型，以其显著提升的推理能力、多模态处理能力和工具调用能力，再次引领了人工智能领域的前沿发展。本文通过亲测 10 个实际案例，深入展示了 o3 在复杂任务处理、多学科知识应用、创意生成和数据分析等场景下的强大表现。从化身福尔摩斯分析图片到生成深度研究报告，o3 的能力不仅令人印象深刻，更仿佛为用户提供了 20 美金 / 月就能雇佣的跨学科博士助理。这些案例不仅揭示了 o3 的技术进步，也为我们描绘了 AI 在未来工作和生活中可能扮演的角色。

一直以来，OpenAI 的o1模型都是推理模型的巅峰，其DeepResearch功能就是凭借o系列的基座能力，在市场上赢得了口碑。不过，可能生成报告的模式，让大家始终觉得搜索升级没啥看头，大家很难体会AI的研究能力。在昨晚发布的o3和o4、o4 mini模型中，实现了以下能力的跃迁：

整体推理能力：对真实、复杂任务的专家打分显示，o3 的重大错误比上一代 o1 少 ≈20 %

视觉多模态：在大学水平的多学科视觉推理基准 MMMU，o3 82.9 % → GPT‑4 34.9 %，绝对提升 ≈48 分，相当于 2.4 × 的相对提升竞赛数学：AIME 2024 单次作答 o3 91.6 %，而 GPT‑4o 只有 12 % 左右，提升 >7 ×上下文长度：o3 200 k 输入窗口 vs GPT‑4 8 k，且输入/输出 token 价格仅为 GPT‑4 的约 1/3‑2/3

AI呈现了一定程度的研究能力，为了能让大家更直观感受到大模型在各个领域场景下，高水平处理任务的能力。

鲸哥实测了10个案例，我们能看到o3的分步推理思考过程，很多复杂的问题真正在研究，以及利用工具解决！

1、化身福尔摩斯，看图猜测背景信息：

鲸哥在o3上传了一张菜单，要求ChatGPT猜出来是哪家饭店。

可以看到o3分析了菜品和价格，并搜索了大众点评的数据，提出指纹式的菜名+价格组合只有在四季民福出现，最终答对了!

2、识别图片内容信息，成为植物学家：

识图能力在此前的众多大模型中都已经具备，但这次是给大模型加大难度，用一大束花，让GPT识别都有哪些花束。

最终o3识别出了8种主要的花束，展现了对复杂内容的理解。

3、做考公图推题，o3当小学题题目做

在考公题目中，经常有图推题出现。这些题目往往具有一定的难度，考验模型对图片理解以及意识推理的能力。

这道考公题并不容易，GPT用几种形状来找规律，最终选择了答案D。当然，这道题也有争议，粉笔网给出的答案是D，但很多人认为是B。

只是19秒做完这题，o3估计觉得这题没多复杂，都是小学生题。

4、数学计算能力更强，重大错误比o1强20%

在数学计算中，此前o1开始计算哥德巴赫猜想，让大家吃了一惊。当然，也没有计算出来，却显示出推理大模型的强悍之处。

鲸哥拿一道DeepSeeK做错的数学题，考验o3的进化能力。

这道题不太难，但是DS的幻觉率需要人为矫正。

而o3很快就得出了正确答案，数学题是推理模型的阿克琉斯之踵，o3有进步。

5、调用OpenAI内部工具，除了不能做视频

在这里，我们先让o3深度调研下『2025年北京夏天可能火的食物』这一主题。o3从全网内容中获取了最新的5款食物销量，得出了结论。

o3最看好乳茶2.0这款产品，接着让o3做一张轻乳茶2.0的宣传海报，o3会思考任务交代中没有明确提示要Midjourney生成，那就是不仅要生成Prompt，还需要调用4o模型直接生成图片。

接着我们让o3直接生成轻乳茶的电商网页，以动态可视化的HTML网页形式运行。现在GPT还可以直接运行代码，实时预览，很方便。

可以看到右下角还有修复提示，这也是本次o3的重要提升，当它意识到程序有Bug时，就会实时提示可以修复真实代码，这对于AI编程落地很关键。

6、创意视频生成，后续结合Sora才有前景

o3其实作为LLM，本身不支持生成视频，但是我们还是要求他生成视频，考验它解决问题的思路，这里鲸哥给到的是飞机和鱼的创意故事。

o3是逐帧生成了图片，然后做成gif形式的视频。

可以看到最终生成的视频内容，是一架飞机路过，伸出了鱼钩，钓起鱼飞走了。这个创意让我想起来一个歌：『海鸟与鱼相爱，只是一场意外』

7、代码能力和真实物理能力测试

这次公告中，官方称在“修 bug”基准 SWE中，o3 解决 69.1 % 问题，而 GPT‑4o 只解决 33 %左右，代码能力 ≈2 倍提升。

实测中，生成代码的审美确实没什么进步，以下是o3生成的100个小球碰撞的物理实验，这个效果差强人意。

和下图对比看，相比o1的还逊色不少，o系列模型确实在代码编程方面，始终没有超越Claude3.7。尤其前端UI这块，水平还是差不少，GPT-4.1也不行。

8、科技商业问题推理，最终写成文章

在这道题中，鲸哥用比较有门槛的科技商业文作为写作题目，而且要求中间插入数据分析以及战略路径归纳，最终得出结论。

生成的分析深度还可以，只是没学会吴晓波老师的文笔。

一直以来，ChatGPT的写作能力都略逊Claude3.7，从目前看，语言的风格化以及润色程度，比3.7确实还有距离，但是数据和逻辑分析，以及概念的引用都不错。像是个不经常写文章，而是经常做研究的博士，写出来比较硬的内容。

9、视频分析能力，对多媒体的理解能力

我们在Youtube上找了个万人大合唱的合集，然后让他分析这是什么内容，以及为什么能爆火。

o3解读出了都包括哪些歌，然后分析了爆火的底层逻辑。感觉对于IP孵化类博主是个福音，大家以后能用o3直接写爆款分析课程了。

10、生成深度研究报告，o3表现更好

我们调用o3模型的深度思考能力，生成了一份行业报告。o3用了不到20分钟生成了这份1万多字的报告。

还是先思考后搜索的思路，内容较o1版也有一定程度的提升。

报告全文在这里：https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

o4mini更适合批量客服回答等强调性价比场景，所以本文没有测试。Altman还提到，o3 Pro版本将在未来几周内到达，能力应该比本文测试的o3更强，但也意味着价格更贵。

在Plus账号中，你能大范围使用ChatGPT 的所有能力，尤其o3的20美金每月费用，相当于花近200多元雇佣了一个跨学科博士生在身边做助理，大家觉得值不值呢？

来源：人人都是产品经理

标签： gpt openai 博士 o3 openaio3

本文地址：https://news.43u.com.cn/a/1277887.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐