摘要:o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。
今天凌晨1点,OpenAI进行了技术直播,发布了最强、最智能模型o4-mini和满血版o3。
o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。
根据OpenAI公布的测试数据显示,o4-mini在AIME2024和2025中,分别达到了93.4%和92.7%,比满血版o3还强,成为目前准确率最高的模型;在Codeforces测试中达到了2700分,成为全球前200名最强程序员。
o3和o4-mini简单介绍
传统大模型往往局限于对输入数据的直接处理和生成输出结果,而OpenAI首次赋予o3和o4-mini调用外部工具的能力。
在训练过程中,模型不仅学习如何生成文本,还学习如何在面对复杂任务时选择合适的工具来辅助推理。例如,在解决复杂的数学问题时,模型可以调用计算器工具来完成复杂的计算过程;在处理图像数据时,可以调用图像处理工具来完成裁剪、旋转等操作。
这种工具使用能力的实现,使得模型能够处理更加复杂的任务场景,而不仅仅局限于简单的文本生成。
多模态推理能力则是o3和o4-mini模型的另外一大亮点,可以同时处理文本、图像、音频等,并将这些不同模态的数据进行有机整合。架构上,OpenAI使用了创新的神经网络架构,使模型能够将图像和文本数据分别编码为统一的特征表示。
例如,对于图像数据,模型通过卷积神经网络提取图像的特征;对于文本数据,模型使用Transformer编码器提取文本的语义信息。
然后,模型通过一个融合模块将这些不同模态的特征进行整合,生成统一的特征表示,从而在推理过程中实现多模态数据的联合处理。
o3和o4-mini多模态处理模块的另一个重要特点是其对不同模态数据的动态处理能力。模型可以根据任务的需求,动态地调整对不同模态数据的处理权重。
例如,在处理一个以图像为主的任务时,模型会更多地关注图像数据的特征;而在处理一个以文本为主的任务时,模型会更多地关注文本数据的语义信息。
在训练过程中,OpenAI采用了大规模的无监督学习和少量的监督学习相结合的方式。无监督学习部分,模型通过大量的文本和图像数据进行预训练,学习到语言和图像的基本特征和模式;监督学习部分,则通过标注数据和工具使用数据,对模型进行微调,使其能够更好地理解和使用工具。
o3和o4-mini测试数据
在基准测试方面,o3和o4-mini模型的表现非常强。在AIME 2024测试中,在不使用外部工具的情况下,o3准确率为91.6%,o4-mini为93.4%;AIME 2025测试中,o3准确率为88.9%,o4-mini为92.7%。
而在编程竞赛(Codeforces)测试中,o4-mini达到了惊人的2719分,能够位列全球前200名参赛者之列;o3则为2706分。
在博士级问题解答GPQA测试中,在不使用工具的情况下,o3模型的准确率达到了83%,o4-mini为81.4%;人类最终测试中,o3为20.32分,o4-mini为24.9分都略低于OpenAI发布的Agent模型Deep research。
在多模态任务方面,o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现非常出色。
除了常规测试之外,OpenAI还根据科研人员的使用,分享了一些实际使用测试结果。
在科学研究领域,模型能够帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路。例如,在一个物理学研究项目中,模型通过分析实验数据和查阅相关文献,成功地帮助研究人员完成了一个复杂的物理量估计任务。
这一过程仅用了几分钟,而人类研究人员可能需要数天甚至数周的时间来完成。不仅展示了模型在处理复杂科学问题时的高效性,更证明了其在实际科学研究中的巨大潜力。
在软件开发领域,模型能够帮助开发者快速定位和修复代码中的错误。通过调用代码分析工具和调试工具,模型能够快速地识别出代码中的问题,并提出有效的解决方案。
在实际测试中,模型在处理一个复杂的Python包问题时,通过调用容器工具和代码分析工具,成功地定位并修复了一个复杂的错误,这一过程也仅用了几分钟。
从今天开始,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限,所有计划的速率限制与之前的模型保持不变。
满血o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能,能够在函数调用时保留推理标记以提升性能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。
本文素材来源OpenAI,如有侵权请联系删除
来源:AIGC开放社区