OpenAI这次要颠覆什么?实测案例来啦!新一代AI“小专家”来了!能看图、写代码、自主决策

360影视 国产动漫 2025-04-17 14:49 2

摘要:o3以其卓越的推理性能在多个基准测试中创下新纪录,而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例,展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力,以及它们如何为各个领域带来新的可能性。

o3以其卓越的推理性能在多个基准测试中创下新纪录,而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例,展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力,以及它们如何为各个领域带来新的可能性。

实测案例在文末,一张图片完成推理定位,抓小三业务有了新神器😄😄

概述

OpenAI 推出了 o3 和 o4-mini 两个新一代推理模型,可以图片推理

o3(更聪明)和o4-mini(更轻快)。

它们不仅能看图、写代码、查资料,还能思考问题决定怎么解决问题,特别擅长逻辑推理和工具组合用法。

模型特性:

目前最好的多模态推理能力

完整访问 ChatGPT 所有工具(搜索、代码、图像、文件等)

深度任务思考能力(强化学习训练)

专为复杂问题设计,响应更细致、格式更合理

具备 Agent-like 智能,可以自主决定用哪些工具解决问题

多模态对比

代码能力对比

哎,谁能想到,AI的发展竟然最先被影响的高薪工作是IT工程师。

o3:顶级推理模型

性能表现:

在 Codeforces、SWE-bench、MMMU 等基准测试上创下新纪录。

相比 o1 模型,重大错误减少 20%,特别在编程、商业咨询、创意生成等任务中表现卓越。

领域表现:

在图像推理任务(如图表、手绘草图、照片分析)中精度极高。

能像思维伙伴一样提出并评估创新假设,尤其擅长生物学、数学和工程场景。

对话风格更自然:引入记忆引用,能参考上下文和过往聊天,使回答更连贯、个性化。

o4-mini:轻量高效模型

性价比极高:

小模型但性能突出,尤其适合大规模调用场景。

在 AIME 2025(数学竞赛)中使用 Python 工具后得分达 99.5%,几乎满分。

非STEM任务能力提升:

比 o3-mini 在数据科学、语言类任务上表现更好。

适合处理大批量需要推理的请求,如客户服务、教育、运营分析等。

应用特点

它们“能看、会想、懂工具”

1. 能看图理解内容

能识别图表、扫描页、截图、手绘图等复杂图像。

还可以主动放大、旋转、裁剪图像,作为思考的一部分。

2. 懂得“该用什么工具解决问题”

它们可以自己决定:

要不要搜索?

要不要写代码算一算?

要不要画张图解释一下?

实操案例

问题

分析过程

参考AI内容

OpenAI新模型,可以进行图片推理,更智能,可以规划

GPT-4.1/4.1 mini/4.1 nano全面超越前代,编程能力大幅提升!​

来源:人人都是产品经理

相关推荐