新人辈出，李飞飞推出比肩DeepSeekAI人工智能技术小模型

摘要：新人辈出，李飞飞推出比肩DeepSeekAI人工智能技术小模型。是咋回事呢。李飞飞团队推出的S1模型，被认为在一定程度上有比DeepSeek更便宜且性能可比肩的情况，具体如下：

新人辈出，李飞飞推出比肩DeepSeekAI人工智能技术小模型。是咋回事呢。李飞飞团队推出的S1模型，被认为在一定程度上有比DeepSeek更便宜且性能可比肩的情况，具体如下：

推出背景

近年来人工智能领域竞争激烈，尤其是大型语言模型的开发成为焦点，DeepSeek以其高效、低成本的模型在业内有“价格屠夫”之称。在此背景下，李飞飞团队推出了S1模型。

S1模型情况

- 训练成本：李飞飞团队声称仅用50美元的云计算成本就完成了S1模型的训练，这主要指使用16个NVIDIA H100 GPU进行26分钟的模型微调，但此成本不包括前期数据准备、基座模型开发和研究人员的劳动成本等。

- 性能表现：在数学和编码能力测试中，S1模型的表现与DeepSeek的R1相当，甚至在某些领域（如竞赛数学问题）略胜一筹，在需要深层推理的任务中领先DeepSeek R1约27%。

技术原理

- 采用蒸馏技术：S1并非从零开始训练，而是以谷歌Gemini 2.0和阿里云Qwen等现有大模型为“教师”，通过蒸馏技术提取其知识精华，再微调至特定任务，大幅降低了数据与算力需求。

- 使用特制数据集：团队构建了一个仅包含1000个精选样本的S1K数据集，基于难度、多样性和质量三个标准筛选，确保每个问题都具有挑战性。

- 创新训练方法：采用名为“test - time scaling”的创新训练方法，并结合“预算强制”技术来控制测试时间，可在测试时通过动态调整计算资源来延长或缩短模型“思考”时间，从而实现性能优化。

来源：虞山清风798

标签：模型 deepseekai deepseekai人工智能

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!