OpenAI连发o3/o4 mini，比前代性能更强价格更低

摘要：图像思维链整合o3和o4-mini首次实现将图像直接融入推理过程，突破传统多模态模型的“看图说话”局限。例如，用户上传模糊草图或倒置图表时，模型可通过旋转、缩放等操作辅助分析。

OpenAI最新发布的o3和o4-mini模型在技术能力、实际应用和商业策略上展现了多重突破，以下从核心功能、性能提升、实测表现、定价策略及生态扩展五个维度进行深度解析：

一、技术能力革新

图像思维链整合o3和o4-mini首次实现将图像直接融入推理过程，突破传统多模态模型的“看图说话”局限。例如，用户上传模糊草图或倒置图表时，模型可通过旋转、缩放等操作辅助分析。

在MathVista视觉数学推理测试中，o3准确率达87.5%，较前代提升21.8%。这种能力使其可解析白板笔记（误差仅305米内）、医学影像甚至手绘迷宫。

工具自主调用模型能智能组合ChatGPT工具生态（如网页搜索、Python代码执行、文件解析），实现端到端复杂任务处理。典型案例包括：通过搜索能源数据→编写预测代码→生成可视化图表→解释关键因素，完整回答“加州夏季能源使用变化”问题。这种链式调用效率使欧拉问题解答缩短至3分钟内。

二、性能突破与基准表现

o3的全面领先性

编程领域：在Codeforces竞赛中ELO值达2706（o1仅1891），接近顶尖人类程序员水平。科学推理：估算质子同位旋矢量标量电荷时，可关联最新研究成果进行对比分析，误差率较o1降低20%。安全防护：重构安全训练数据集后，生物风险对话识别率达99%。

o4-mini的性价比优势

在AIME 2025数学竞赛中，启用Python工具后得分达99.5%，接近满分。非STEM任务表现超越前代o3-mini，数据科学领域推理成本降低63%。

三、实测场景验证

跨领域问题解决

医学诊断：免疫学专家Derya Unutmaz实测o3回答复杂临床问题，反馈其分析严谨性“媲美专科医生”。工程应用：通过分析机械图纸尺寸计算部件体积，o4-mini-high一次成功。

多模态交互缺陷用户发现o系列存在“工具调用幻觉”，例如虚构代码执行过程。研究推测这与强化学习的奖励机制相关，需通过系统监控缓解。

四、商业化策略升级

定价体系重构o4-mini输入/输出token成本仅为o3的11%和11%，实现性能提升与成本下降并行。例如：

模型输入（$/百万token）输出（$/百万token）o31040o4-mini1.14.4

用户分层服务

Pro用户可无限调用o3（日均200次）Plus/Team用户使用o4-mini受150次/日限制

五、开发者生态拓展

Codex CLI开源工具该命令行界面支持自然语言→代码转换，兼容本地开发环境。例如通过截图生成视频处理脚本，实现“聊天驱动开发”。OpenAI配套推出100万美元资助计划，激励工具生态创新。

多模型协同路线GPT-5将整合传统模型与推理模型，当前o系列被视为过渡方案。开发者可通过API接入自定义工具，构建垂直领域解决方案。

来源：新浪财经

标签： mini openai o3 o4 o4mini

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!