OpenAI有望重拾开源，2025年或是开源模型快速进步的一年

摘要：25年1月31日，OpenAI正式上线o3-mini，从发布时间和模型性能看，符合24年12月OpenAI发布会的预期。o3-mini通过ChatGPT Plus/Team/Pro订阅，以及API方式提供，Plus/Team订阅用户的o3-mini使用限额为每

核心观点

25年1月31日，OpenAI正式上线o3-mini，从发布时间和模型性能看，符合24年12月OpenAI发布会的预期。o3-mini通过ChatGPT Plus/Team/Pro订阅，以及API方式提供，Plus/Team订阅用户的o3-mini使用限额为每天150条，开发人员则可以选择模型的（低/中/高算力）三种推理模式来优化其特定用例。o3-mini模型延续了模型降价趋势，OpenAI指出自推出GPT-4以来，token的定价降低了95%，同时保持了优秀的推理能力。此外，DeepSeek性能和开源生态已经引起了海外头部模型厂商重视，OpenAI CEO表示R1“impressive”，并且指出后续可能找到不同的开源策略，有望重拾模型开源。我们认为，2025年或是开源模型快速进步的一年，国产大模型进展值得关注。

OpenAI正式上线o3-mini，上线时间和模型性能符合预期

本次o3-mini上线为预期之内，24年12月OpenAI官方发布了最新款o3模型，即指出o3-mini将于25年1月底上线。从性能看，o3-mini比o1-mini具有更强的推理能力，响应速度比快24%。据OpenAI官方数据，测试人员在56%的时间内更喜欢o3-mini的回答，且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间，o3-mini在AIME和GPQA等较难的推理和智能性评估中，能够达到与o1匹配的性能。o3-mini暂不支持视觉功能，可以使用o1进行视觉推理任务，后续有望跟进。

ChatGPT非会员开始支持推理功能，OpenAI逐步实现模型普惠化

我们认为，OpenAI免费功能不断下放，证明模型性能迭代迅速，模型普惠化加速进行。o3-mini上线时，OpenAI同步宣布免费计划用户可以通过在消息编写器中选中“Reason”按钮，或在模型回答后选择重新生成响应来使用o3-mini模型，标志着ChatGPT中首次向免费用户提供推理模型。随着GPT系列模型的不断迭代，OpenAI已逐步将语音、新版模型等功能下放给免费用户，一方面证明其技术实力，另一方面表明模型性能迭代迅速，之前需要收费的功能已经实现免费化和普惠化。

o3-mini并非应对DeepSeek才发布，但OpenAI已开始重视国产模型

近期由DeepSeek发布的V3和R1模型由于低廉的推理价格和o1级别的推理性能，得到了市场的广泛关注。我们认为，o3-mini并非应对DeepSeek才发布，而是24年12月发布时即确定好了发布时间。但是，DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视：微软、亚马逊、英伟达先后上线R1模型；OpenAI CEO Sam Altman在Blog表示R1“impressive”，并且OpenAI也将“提供更好的模型”。我们看好2025年国内模型在算法和软硬件技术的持续优化，以及在开源领域的重大贡献。

DeepSeek开始引领开源潮流，OpenAI或将重拾开源

我们认为，开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例，其开源仓库采用标准化、宽松的MIT License，完全开源，不限制商用，无需申请。因此，理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据，来增强推理性能。此外，DeepSeek-R1开源有望提振整个开源社区的共建氛围，使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上，Altman表示“闭源可能站在历史错误的一边”，后续可能找到不同的开源策略。我们认为，2025年或是开源模型快速进步的一年，国产大模型进展值得关注。

风险提示：宏观经济波动，技术进步不及预期。本报告基于客观事实整理，不构成投资建议。

正文

o3-mini和DeepSeek-R1均达到o1水平

o3-mini发布，通过提升思考时间能够达到与o1匹配的性能。25年1月31日，OpenAI正式上线o3-mini，通过ChatGPT Plus、Team和Pro订阅，以及API方式提供。其中Plus和Team订阅用户的o3-mini使用限额为每天150条，开发人员则可以选择模型的（低/中/高算力）三种推理模式，优化其特定用例。本次o3-mini上线为预期之内，24年12月OpenAI官方发布了最新款o3模型，即指出o3-mini将于25年1月底上线。从性能看，o3-mini比o1-mini具有更强的推理能力，响应速度比快24%。据OpenAI官方数据，测试人员在56%的时间内更喜欢o3-mini的回答，且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间，o3-mini在AIME和GPQA等较难的推理和智能评估中，能够达到与o1匹配的性能。o3-mini暂不支持视觉功能，可以继续使用o1进行视觉推理任务。

o3-mini和DeepSeek-R1在更困难的“Humanity's Last Exam”测试中名列前茅。由于近期模型能力的迅速提升，传统的测试集已经无法更好的测出模型性能的差距。因此，Humanity's Last Exam应运而生，该测试集是涵盖人类前沿知识的多模态测试基准，由100多个主题的3000个具有挑战性的问题组成。从测评结果看，目前所有前沿模型的准确性都较低，凸显了当前前沿模型在专家级学术领域还有很大的改进空间。但是对比已有的前沿模型，o3-mini已经超过了o1的水平，而DeepSeek-R1紧随其后，性能同样超过了o1。

DeepSeek-R1引起海外关注，OpenAI或因此重拾开源路线

DeepSeek通过多代模型迭代，逐步实现成本降低和性能提升。DeepSeek的模型以文本模态为主。2024年5月发布V2版本，通过注意力机制的优化，提高了训练和推理效率，实现模型价格的下降。2024年12月V3发布，在V2基础上运用了更多的软硬件优化技术，并且在技术报告中指出V3模型单次成功训练成本（不含前期研究、消融实验、算法和数据准备成本）仅为558万美元，性能达到4o水平。2025年1月，R1正式版模型发布，成功大规模实践了强化学习，使得R1性能提升到o1水平。

DeepSeek-V3在V2的基础上，进一步优化软硬件算法，实现性能提升。DeepSeek V2主要的改进包括采用了MLA（多头隐注意力机制）和DeepSeekMoE架构，相比其前一代模型DeepSeek 67B（稠密架构），性能更强，训练成本节省42.5%，KV cache 降低了93.3%（以上数据来源为华泰计算机报告《国产大模型“凭”什么降价？》2024.06.10）。V3以V2为基础，增加了无辅助损失策略、多token预测（MTP）、计算通信重叠、内存占用优化等新的软硬件优化算法，使得模型性能再上台阶。

DeepSeek-R1采用多阶段训练流程。DeepSeek-R1-Zero将RL直接应用于基础模型，而不使用任何SFT数据。经过数千次RL步骤后，DeepSeek-R1-Zero在推理基准测试中表现出较强的性能。但是DeepSeek-R1-Zero存在可读性差、多语言混合问题等。因此，DeepSeek团队通过如下方法进行进一步优化：1）通过引入少量高质量数据作为冷启动，推理性能进一步改进或收敛加速。2）提出新的多阶段训练，穿插多次SFT和RL，最终基于DeepSeek-R1-Zero得到了DeepSeek-R1模型。DeepSeek-R1在工程相关任务、MMLU、MMLU-Pro、GPQA Diamond、长上下文等能力方面优于V3，达到o1级别水平。

DeepSeek-V3/R1由于低廉的推理价格和o1级别的推理性能，得到了市场的广泛关注。我们认为，o3-mini并非应对DeepSeek才发布，而是24年12月发布时即确定好了发布时间。但是，DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视：微软、亚马逊、英伟达先后上线R1模型；OpenAI CEO Sam Altman在Blog表示R1“impressive”，并且OpenAI也将“提供更好的模型”以应对DeepSeek。我们看好2025年国内模型在算法和软硬件的持续优化，以及在开源领域的重大贡献。

DeepSeek开始引领开源潮流，OpenAI或将重拾开源。我们认为，开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例，其开源仓库（包括模型权重）统一采用标准化、宽松的MIT License，完全开源，不限制商用，无需申请。因此，理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据，来增强推理性能。此外，DeepSeek-R1开源有望提振整个开源社区的共建氛围，使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上，Altman表示“闭源可能站在历史错误的一边”，后续可能找到不同的开源策略。我们认为，2025年或是开源模型快速进步的一年，开源闭源模型的差距有望进一步缩小，国产大模型进展值得关注。