OpenAI有望重拾开源,2025年或是开源模型快速进步的一年

360影视 2025-02-04 08:11 3

摘要:25年1月31日,OpenAI正式上线o3-mini,从发布时间和模型性能看,符合24年12月OpenAI发布会的预期。o3-mini通过ChatGPT Plus/Team/Pro订阅,以及API方式提供,Plus/Team订阅用户的o3-mini使用限额为每

核心观点

25年1月31日,OpenAI正式上线o3-mini,从发布时间和模型性能看,符合24年12月OpenAI发布会的预期。o3-mini通过ChatGPT Plus/Team/Pro订阅,以及API方式提供,Plus/Team订阅用户的o3-mini使用限额为每天150条,开发人员则可以选择模型的(低/中/高算力)三种推理模式来优化其特定用例。o3-mini模型延续了模型降价趋势,OpenAI指出自推出GPT-4以来,token的定价降低了95%,同时保持了优秀的推理能力。此外,DeepSeek性能和开源生态已经引起了海外头部模型厂商重视,OpenAI CEO表示R1“impressive”,并且指出后续可能找到不同的开源策略,有望重拾模型开源。我们认为,2025年或是开源模型快速进步的一年,国产大模型进展值得关注。

OpenAI正式上线o3-mini,上线时间和模型性能符合预期

本次o3-mini上线为预期之内,24年12月OpenAI官方发布了最新款o3模型,即指出o3-mini将于25年1月底上线。从性能看,o3-mini比o1-mini具有更强的推理能力,响应速度比快24%。据OpenAI官方数据,测试人员在56%的时间内更喜欢o3-mini的回答,且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间,o3-mini在AIME和GPQA等较难的推理和智能性评估中,能够达到与o1匹配的性能。o3-mini暂不支持视觉功能,可以使用o1进行视觉推理任务,后续有望跟进。

ChatGPT非会员开始支持推理功能,OpenAI逐步实现模型普惠化

我们认为,OpenAI免费功能不断下放,证明模型性能迭代迅速,模型普惠化加速进行。o3-mini上线时,OpenAI同步宣布免费计划用户可以通过在消息编写器中选中“Reason”按钮,或在模型回答后选择重新生成响应来使用o3-mini模型,标志着ChatGPT中首次向免费用户提供推理模型。随着GPT系列模型的不断迭代,OpenAI已逐步将语音、新版模型等功能下放给免费用户,一方面证明其技术实力,另一方面表明模型性能迭代迅速,之前需要收费的功能已经实现免费化和普惠化。

o3-mini并非应对DeepSeek才发布,但OpenAI已开始重视国产模型

近期由DeepSeek发布的V3和R1模型由于低廉的推理价格和o1级别的推理性能,得到了市场的广泛关注。我们认为,o3-mini并非应对DeepSeek才发布,而是24年12月发布时即确定好了发布时间。但是,DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视:微软、亚马逊、英伟达先后上线R1模型;OpenAI CEO Sam Altman在Blog表示R1“impressive”,并且OpenAI也将“提供更好的模型”。我们看好2025年国内模型在算法和软硬件技术的持续优化,以及在开源领域的重大贡献。

DeepSeek开始引领开源潮流,OpenAI或将重拾开源

我们认为,开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例,其开源仓库采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。因此,理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据,来增强推理性能。此外,DeepSeek-R1开源有望提振整个开源社区的共建氛围,使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上,Altman表示“闭源可能站在历史错误的一边”,后续可能找到不同的开源策略。我们认为,2025年或是开源模型快速进步的一年,国产大模型进展值得关注。

风险提示:宏观经济波动,技术进步不及预期。本报告基于客观事实整理,不构成投资建议。

正文

o3-mini和DeepSeek-R1均达到o1水平

o3-mini发布,通过提升思考时间能够达到与o1匹配的性能。25年1月31日,OpenAI正式上线o3-mini,通过ChatGPT Plus、Team和Pro订阅,以及API方式提供。其中Plus和Team订阅用户的o3-mini使用限额为每天150条,开发人员则可以选择模型的(低/中/高算力)三种推理模式,优化其特定用例。本次o3-mini上线为预期之内,24年12月OpenAI官方发布了最新款o3模型,即指出o3-mini将于25年1月底上线。从性能看,o3-mini比o1-mini具有更强的推理能力,响应速度比快24%。据OpenAI官方数据,测试人员在56%的时间内更喜欢o3-mini的回答,且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间,o3-mini在AIME和GPQA等较难的推理和智能评估中,能够达到与o1匹配的性能。o3-mini暂不支持视觉功能,可以继续使用o1进行视觉推理任务。

o3-mini和DeepSeek-R1在更困难的“Humanity's Last Exam”测试中名列前茅。由于近期模型能力的迅速提升,传统的测试集已经无法更好的测出模型性能的差距。因此,Humanity's Last Exam应运而生,该测试集是涵盖人类前沿知识的多模态测试基准,由100多个主题的3000个具有挑战性的问题组成。从测评结果看,目前所有前沿模型的准确性都较低,凸显了当前前沿模型在专家级学术领域还有很大的改进空间。但是对比已有的前沿模型,o3-mini已经超过了o1的水平,而DeepSeek-R1紧随其后,性能同样超过了o1。

DeepSeek-R1引起海外关注,OpenAI或因此重拾开源路线

DeepSeek通过多代模型迭代,逐步实现成本降低和性能提升。DeepSeek的模型以文本模态为主。2024年5月发布V2版本,通过注意力机制的优化,提高了训练和推理效率,实现模型价格的下降。2024年12月V3发布,在V2基础上运用了更多的软硬件优化技术,并且在技术报告中指出V3模型单次成功训练成本(不含前期研究、消融实验、算法和数据准备成本)仅为558万美元,性能达到4o水平。2025年1月,R1正式版模型发布,成功大规模实践了强化学习,使得R1性能提升到o1水平。

DeepSeek-V3在V2的基础上,进一步优化软硬件算法,实现性能提升。DeepSeek V2主要的改进包括采用了MLA(多头隐注意力机制)和DeepSeekMoE架构,相比其前一代模型DeepSeek 67B(稠密架构),性能更强,训练成本节省42.5%,KV cache 降低了93.3%(以上数据来源为华泰计算机报告《国产大模型“凭”什么降价?》2024.06.10)。V3以V2为基础,增加了无辅助损失策略、多token预测(MTP)、计算通信重叠、内存占用优化等新的软硬件优化算法,使得模型性能再上台阶。

DeepSeek-R1采用多阶段训练流程。DeepSeek-R1-Zero将RL直接应用于基础模型,而不使用任何SFT数据。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出较强的性能。但是DeepSeek-R1-Zero存在可读性差、多语言混合问题等。因此,DeepSeek团队通过如下方法进行进一步优化:1)通过引入少量高质量数据作为冷启动,推理性能进一步改进或收敛加速。2)提出新的多阶段训练,穿插多次SFT和RL,最终基于DeepSeek-R1-Zero得到了DeepSeek-R1模型。DeepSeek-R1在工程相关任务、MMLU、MMLU-Pro、GPQA Diamond、长上下文等能力方面优于V3,达到o1级别水平。

DeepSeek-V3/R1由于低廉的推理价格和o1级别的推理性能,得到了市场的广泛关注。我们认为,o3-mini并非应对DeepSeek才发布,而是24年12月发布时即确定好了发布时间。但是,DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视:微软、亚马逊、英伟达先后上线R1模型;OpenAI CEO Sam Altman在Blog表示R1“impressive”,并且OpenAI也将“提供更好的模型”以应对DeepSeek。我们看好2025年国内模型在算法和软硬件的持续优化,以及在开源领域的重大贡献。

DeepSeek开始引领开源潮流,OpenAI或将重拾开源。我们认为,开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例,其开源仓库(包括模型权重)统一采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。因此,理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据,来增强推理性能。此外,DeepSeek-R1开源有望提振整个开源社区的共建氛围,使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上,Altman表示“闭源可能站在历史错误的一边”,后续可能找到不同的开源策略。我们认为,2025年或是开源模型快速进步的一年,开源闭源模型的差距有望进一步缩小,国产大模型进展值得关注。

风险提示

宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。

技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。

本报告基于客观事实整理,不构成投资建议。

相关研报

研报:《计算机/电子: o3-mini发布,OpenAI或重拾开源》2025年2月3日

本文源自券商研报精选

来源:金融界

相关推荐