OpenAI发布首个「图像推理」大模型—o3，10大应用场景抢先看！

摘要：不过，直播发布会通篇看下来，我感觉最值得关注的地方应该是——o3 的图像推理能力。

今天凌晨，OpenAI 丢出两个新模型：o3、o4mini。

相比于之前的 o1/o3mini，新模型的整体能力有了不小的进步。

不过，直播发布会通篇看下来，我感觉最值得关注的地方应该是——o3 的图像推理能力。

严格来讲，o3 可以说是首个真正意义上的“图像推理大模型”。

o3 不仅能通过文字进行复杂推理，还能直接从图像中获取信息并进行深度思考。

与以往的 AI 模型不同，o3 可以像侦探一样"看图破案"——

它能分析照片中的细节，推理出背后的逻辑关系，甚至解决需要多步骤视觉分析的复杂问题。

无论是手写数学题、医学影像，还是生产线质检，o3都能胜任。

这是 OpenAI 官方 po 出的数据，o3 在视觉推理基准测试中表现惊人：

✅ MMMU（多模态多学科理解）：82.9%

✅ MathVista（数学视觉推理）：86.8%

o3是如何"思考"图片的？

据 OpenAI 官方研究显示，o3 的图像推理能力主要体现在以下几个方面：

长链视觉推理：o3 能够在处理图像时进行多步骤的逻辑思考。例如，面对一张复杂的迷宫图片，o3 通过逐步分析可能的路径最终找到正确答案。图像操作能力：o3 不仅能看懂图片，还能对图像进行裁剪、缩放、旋转等操作，以便更好地分析细节。模糊图像处理：即使面对质量不佳的图片，o3 也能通过上下文线索和局部特征进行有效推理。工具辅助分析：在处理复杂图像时，o3 可以调用编程工具进行辅助分析，例如通过 Python 代码提取图像中的关键数据。多模态理解：o3 能同时理解图像和文字的关系，例如分析包含图表和说明文字的科学论文。

适合 o3 发挥“火眼金睛”能力的 10 大场景