摘要:今天下午简直被这条新闻刷屏了,“震惊”“李飞飞”“50美元”“DeepSeekR1”,这几个词连到一起,简直是掀了OpenAI和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI花了几十、几百亿美元做出来的模型,被轻松复制,那OpenAI的估值不
今天下午简直被这条新闻刷屏了,“震惊”“李飞飞”“50美元”“DeepSeekR1”,这几个词连到一起,简直是掀了OpenAI和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI花了几十、几百亿美元做出来的模型,被轻松复制,那OpenAI的估值不得打个骨折?
我就赶紧看了下论文:
Github:https://github.com/simplescaling/s1
结果发现并不是那么回事。
首先这个50美元咋来的?因为论文中提到用了16块H100GPU,而且只花了26min,如果是租服务器的话,确实也就是几十美元。
但问题是,论文中并不是训练出了DeepSeekR1!
论文的核心内容是基于开源的Qwen2.5-32B模型,该模型是蒸馏出来的模型,32B只能算是中等参数模型,作为本次实验对比的R1和o1都是大几千亿参数的模型。用小数据集进行监督微调,而且微调后的参数数量跟之前基本保持一致,然后在特定任务上把性能优化了,而这些任务的性能表现可以媲美DeepSeekR1和OpenAIo1。
怎么经过中文博主翻译过来后,就成了50美元蒸馏出了DeepSeekR1?
以下是论文解读(使用豆包解读):
研究背景与目标:语言模型性能提升多依赖训练时计算资源扩展,测试时缩放是新范式,OpenAI的o1模型展示了其潜力,但方法未公开。本文旨在探寻实现测试时缩放和强推理性能的最简方法。
s1K数据集构建
初始数据收集:依据质量、难度和多样性原则,从16个来源收集59029个问题,涵盖现有数据集整理和新的定量推理数据集创建,用GoogleGeminiFlashThinkingAPI生成推理轨迹和解决方案,并进行去重和去污染处理。
最终样本选择:经质量、难度和多样性三步筛选得到1000个样本的s1K数据集。质量筛选去除API错误和低质量样本;难度筛选依据两个模型的性能和推理轨迹长度排除过易问题;多样性筛选按数学学科分类,从不同领域采样,且倾向选择推理轨迹长的样本。
测试时缩放方法
方法分类与提出:将测试时缩放方法分为顺序和并行两类,重点研究顺序缩放。提出预算强制(Budgetforcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。
基准对比:将预算强制与条件长度控制方法(令牌条件控制、步骤条件控制、类别条件控制)和拒绝采样进行对比。使用控制(Control)、缩放(Scaling)和性能(Performance)三个指标评估,结果表明预算强制在控制、缩放和最终性能上表现最佳。
实验结果
实验设置:用s1K对Qwen2.5-32B-Instruct进行监督微调得到s1-32B模型,在AIME24、MATH500和GPQADiamond三个推理基准上评估,并与OpenAIo1系列、DeepSeekr1系列等模型对比。
性能表现:s1-32B在测试时缩放中,性能随测试时计算资源增加而提升,在AIME24上超过o1-preview达27%,且是最具样本效率的开源数据推理模型,接近Gemini2.0在AIME24上的性能,验证了蒸馏过程的有效性。
消融实验
数据相关:测试数据质量、多样性和难度组合的重要性。随机选择(仅质量)、仅多样性选择、仅难度选择(选最长推理轨迹样本)的数据集性能均不如s1K,训练59K全量样本虽性能强但资源消耗大,证明s1K构建方法的有效性。
测试时缩放方法:预算强制在AIME24测试中控制完美、缩放良好、得分最高,“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败,步骤条件控制下模型可绕过计算约束,类别条件控制虽能提升性能但综合表现不如预算强制,拒绝采样呈现反向缩放趋势。
讨论与展望
样本高效推理:众多研究致力于复制o1性能,本文通过1000样本监督微调结合预算强制,构建出有竞争力的模型,推测预训练使模型具备推理能力,微调激活该能力。同时,介绍了相关基准和方法的发展情况。
测试时缩放:对比了并行和顺序测试时缩放方法,分析了预算强制的局限性,提出改进方向,如改进预算强制策略或结合强化学习探索新的测试时缩放方式,并指出并行缩放可作为突破顺序缩放限制的解决方案。
国内的网络环境真的是太浮躁了,这种信息,完全不确认一下就发出来误导大众,希望大家以后看到这种信息要多思考一下。
来源:孙哥讲科技说