仅 365 元、训练类 OpenAI o1、DeepSeek R1 模型:已开源

360影视 2025-02-06 17:45 3

摘要:2025 年 1 月31 日,发布的一篇新研究论文显示,斯坦福大学和华盛顿大学的 AI 研究人员凭借不到 50 美元(365 元人民币)的云计算积分(credit),成功训练了一个 AI “推理”模型。

2025 年 1 月31 日,发布的一篇新研究论文显示,斯坦福大学和华盛顿大学的 AI 研究人员凭借不到 50 美元(365 元人民币)的云计算积分(credit),成功训练了一个 AI “推理”模型。

该模型名为 s1,在测试数学和编码能力方面的表现与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相类似。

s1 模型以及用于训练它的数据和代码现已放在了 GitHub上,详见:https://github.com/simplescaling/s1。

s1 背后的研究团队表示,他们从一个现成的基础模型入手,然后通过蒸馏对基础模型进行微调。

蒸馏是指通过使用答案进行训练,从另一个 AI 模型提取“推理”功能的过程。

研究人员表示,s1 是从谷歌的推理模型之一:Gemini 2.0 Flash Thinking Experimental 蒸馏或提炼而来的。

上个月,伯克利大学的研究人员同样用蒸馏方法创建了一个 AI 推理模型,成本仅花了约 450 美元。

在一些人看来,几个没有数百万美元资金支持的研究人员仍然可以在 AI 领域进行创新,这确实令人兴奋。

但 s1 在 AI 模型商品化方面引出了真正的问题。

如果有人用比较少的钱就可以高度复制出一个原本需要投入数百万美元才能开发出来的模型,护城河又在哪里?

大型 AI 实验室并不高兴,这不足为奇。

OpenAI 已指控 DeepSeek 出于模型蒸馏的目的,以不当手段从其 API 收集数据。

s1 背后的研究人员正在寻找最简单的方法来实现强大的推理性能和“测试时间缩放”,即让 AI 模型在进行更多的思考之后才回答问题。

这些是 OpenAI 的 o1 取得的几项突破,DeepSeek 及其他 AI 实验室试图通过各种技术同样取得这些突破。

s1 论文显示,推理模型可以使用一种名为监督微调(SFT)的方法,用一个比较小的数据集进行蒸馏。

在监督微调过程中,AI 模型被明确指示模仿数据集中的某些行为。

SFT 的成本往往比大规模强化学习方法来得低廉,而 DeepSeek 使用后者来训练与 OpenAI 的 o1 模型竞争的 R1。

谷歌通过其 Google AI Studio 平台免费供人访问 Gemini 2.0 Flash Thinking Experimental,不过有当日速率限制。

然而,谷歌的条款禁止对其模型进行逆向工程处理,阻止外人开发与该公司自己的 AI 产品相竞争的服务。

s1 基于阿里巴巴 AI 实验室 Qwen 的一个现成的小型 AI 模型,该模型可免费下载。为了训练 s1,研究人员创建了一个由仅仅 1000 个精挑细算的问题组成的数据集,并将这些问题与答案进行配对,来自谷歌的 Gemini 2.0 Flash Thinking Experimental 的每个答案背后都进行了“思考”过程。

据研究人员表示,在训练 s1(使用 16 块英伟达 H100 GPU 不到 30 分钟的时间就完成了训练)后,s1 在某些 AI 基准测试中取得了出色的表现。

参与该项目的斯坦福大学研究人员 Niklas Muennighoff 表示,如今他以约 20 美元的价格就能租到必要的计算资源。

研究人员使用了一个巧妙的技巧让 s1 仔细检查其工作,并延长其“思考”时间:他们让 s1 等待。

据论文显示,在 s1 的推理过程中加入“等待”一词有助于模型得出更准确一点的答案。

Meta 、谷歌和微软计划 2025 年在 AI 基础设施上投资数千亿美元,其中一部分将用于训练下一代 AI 模型。

这等规模的投资可能仍然是推动 AI 创新勇攀高峰的必要条件。

蒸馏已被证明是一种低成本重现 AI 模型功能的好方法,但它并不能开发出比现有模型好得多的新的 AI 模型。

来源:大单网

相关推荐