摘要:不过,直播发布会通篇看下来,我感觉最值得关注的地方应该是——o3 的图像推理能力。
今天凌晨,OpenAI 丢出两个新模型:o3、o4mini。
相比于之前的 o1/o3mini,新模型的整体能力有了不小的进步。
不过,直播发布会通篇看下来,我感觉最值得关注的地方应该是——o3 的图像推理能力。
严格来讲,o3 可以说是首个真正意义上的“图像推理大模型”。
o3 不仅能通过文字进行复杂推理,还能直接从图像中获取信息并进行深度思考。
与以往的 AI 模型不同,o3 可以像侦探一样"看图破案"——
它能分析照片中的细节,推理出背后的逻辑关系,甚至解决需要多步骤视觉分析的复杂问题。
无论是手写数学题、医学影像,还是生产线质检,o3都能胜任。
这是 OpenAI 官方 po 出的数据,o3 在视觉推理基准测试中表现惊人:
✅ MMMU(多模态多学科理解):82.9%
✅ MathVista(数学视觉推理):86.8%
o3是如何"思考"图片的?
据 OpenAI 官方研究显示,o3 的图像推理能力主要体现在以下几个方面:
长链视觉推理:o3 能够在处理图像时进行多步骤的逻辑思考。例如,面对一张复杂的迷宫图片,o3 通过逐步分析可能的路径最终找到正确答案。图像操作能力:o3 不仅能看懂图片,还能对图像进行裁剪、缩放、旋转等操作,以便更好地分析细节。模糊图像处理:即使面对质量不佳的图片,o3 也能通过上下文线索和局部特征进行有效推理。工具辅助分析:在处理复杂图像时,o3 可以调用编程工具进行辅助分析,例如通过 Python 代码提取图像中的关键数据。多模态理解:o3 能同时理解图像和文字的关系,例如分析包含图表和说明文字的科学论文。适合 o3 发挥“火眼金睛”能力的 10 大场景
1. 教育:智能辅导
学生只需拍下自己的手写笔记或习题,o3 就能识别出公式、图表,并一步步推导出解题思路。
2. 医疗:辅助诊断
医生上传患者的 X 光片、CT 扫描、病理切片图像,o3 能够识别异常特征,结合患者病史进行多维度分析,提供初步诊断建议。
3. 制造业:智能质检
在生产线上,o3 可分析产品图像,检测表面缺陷、尺寸偏差或组装错误。
4. 零售:智能库存管理
零售商只需用手机拍摄货架照片,o3 便能识别商品种类、数量和摆放情况,推理出库存状态并提供补货建议。
5. 交通:智能分析
利用 o3 分析交通摄像头捕捉的道路图像,识别交通拥堵模式,预测潜在事故风险,并优化信号灯控制。
6. 农业:精准监控
农民通过无人机或手机拍摄田间作物照片,让 o3 分析叶片颜色、形态和生长状况,识别病虫害迹象,并提供针对性的处理建议。
7. 建筑:施工监督+安全管理
定期拍摄施工现场照片,o3 可分析施工进度、材料使用情况和潜在安全隐患。
8. 金融:欺诈检测
银行和保险公司利用 o3 分析交易相关的图像证据,如收据、合同或事故照片,检测潜在的欺诈行为。
9. 法律:证据分析
律师和调查人员利用 o3 分析案件相关图像证据,如犯罪现场照片、监控录像或文件照片。
10. 创意设计:智能设计辅助
设计师上传产品原型或空间布局草图,o3 能分析设计的美学和功能性,提出改进建议。
目前,o3 模型已向 ChatGPT Plus、Pro 和 Team 用户开放。
普通账号可以通过“Think”功能试用能力稍有不同的 o4-mini 模型(o4-mini 同样具备图像处理能力,更侧重效率和成本)。
从理解文本到“看懂”世界,OpenAI o3 将正式推开 AI “视觉推理”的大门。
虽然“看图破案”的比喻略带夸张,但 o3 所展现的图像理解与推理能力,确实让我们离那个“AI之眼”洞察万物的未来,又近了一大步。
来源:运营黑客