DeepSeek蒸馏技术:AI公司“抄作业”背后的低成本秘密

360影视 欧美动漫 2025-03-12 08:20 2

摘要:此外,一种名为“蒸馏”的技术正在普及,它能够以更低的折扣价格生成相当不错的大语言模型。这在人工智能生态系统的某些领域点燃了创新之火,在另一些领域则带来了挑战。

版权属于原作者,仅用于学术分享,如有侵权留言删除

来源|BUSINESS INSIDER

作者|Emma Cosgrove and Hugh Langley

编译|杨雪涵

创办一家人工智能公司的成本大概是多少?

随着为小型项目创建的大语言模型越来越多,人工智能创业公司的启动成本每天都在降低,计算成本也在不断下降。

此外,一种名为“蒸馏”的技术正在普及,它能够以更低的折扣价格生成相当不错的大语言模型。这在人工智能生态系统的某些领域点燃了创新之火,在另一些领域则带来了挑战。

蒸馏是一项古老的技术概念,如今正焕发出新的重要意义。对大多数人来说,这是个好消息;对少数人来说,这很复杂;对人工智能的未来来说,这很重要。

蒸馏的定义

人工智能开发者和专家们认为,蒸馏的底层逻辑是使用一个模型来改进另一个模型。在蒸馏过程中,首先会让一个较大的教师模型生成响应和推理路径,一个较小的学生模型则模仿其行为。

DeepSeek因其训练出可与OpenAI媲美的模型而引发轰动,且据报道,其训练成本仅500万美元左右。这一消息引发了股市的恐慌,由于市场预期芯片需求可能下降,英伟达市值一度缩水6000亿美元。(不过,芯片需求下跌尚未真正成为现实。)

一月发布的一项研究显示,加州大学伯克利分校的一个研究团队以不到1000美元的计算成本成功训练出了两个新模型,但这一成果并未引起广泛关注。

二月初,斯坦福大学、华盛顿大学和艾伦人工智能研究所的研究人员在一篇论文中表示,他们能够以更低的成本训练出一个可用的推理模型。

而蒸馏是实现上述所有进展的突破口。

蒸馏是开发者在训练阶段用于改进模型的一种工具,与微调类似,但成本远低于其他方法。开发者往往会使用这两种技术来赋予模型特定的专业知识或技能。

这意味着可以使用另一个模型对像Meta的Llama这样的通用基础模型进行蒸馏,使其成为美国税法的专家。

另一种应用方式是,利用DeepSeek的R1推理模型对Llama进行蒸馏,使其具备更强的推理能力。这意味着,当人工智能需要较长时间回答问题时,它能够验证自身的逻辑,并逐步展示得出答案的过程。

SemiAnalysis的分析师在一月指出,“R1论文中最引人注目的部分或许在于,它展示了如何通过使用推理模型的输出进行微调,并将不具备推理能力的小模型转化为具备推理能力的模型。”

除了极具竞争力的价格(至少在人工智能领域是如此),DeepSeek还发布了使用R1推理模型作为“教师”模型所蒸馏出的其他开源模型版本。DeepSeek的全尺寸模型以及最大版本的Llama模型体积庞大,只能在特定的硬件上运行。而蒸馏技术恰好能解决这个问题。

Touring Capital的普通合伙人Samir Kumar表示:“蒸馏后的模型体积更小,参数更少,内存占用也更低。因此,你不仅可以在手机上运行它,还可以在边缘设备上运行它。”

DeepSeek的突破性进展在于,通过蒸馏技术缩小模型体积后,其性能并未如预期般下降,反而实现了提升。

蒸馏技术:旧瓶装新酒

蒸馏技术最早出现在2015年的一篇论文中,该论文由谷歌人工智能领域的资深人士Jeff Dean、Geoffrey Hinton以及谷歌DeepMind研究副总裁Oriol Vinyals共同撰写。

Vinyals近日表示,这篇论文曾被著名的NeurIPS(神经信息处理系统大会)拒稿,原因是认为该技术对该领域的影响不大。然而十年后,蒸馏技术突然间成为人工智能讨论的前沿。

如今蒸馏技术之所以如此强大,与当年相比,是因为现在有大量高质量的开源模型可用作教师模型。

IBM LLM Granite的技术管理总监Kate Soule一月在公司播客“专家混合”中说道:“我认为,DeepSeek通过MIT许可协议发布了一个非常强大的模型——迄今为止最强大的开源模型,实际上正在侵蚀所有大模型提供商的竞争壁垒,这些提供商一直将其最大规模的模型封闭在自家门后。

(LINK:https://www.ibm.com/think/podcasts/mixture-of-experts/openai-o3-deepseek-v3-brundage-marcus-ai-bet?mhsrc=ibmsearch_a&mhq=kate soule)

蒸馏技术的边界

Soule表示,Hugging Face上充斥着Meta的Llama和阿里巴巴的Qwen的蒸馏版本,它们都属于开源的传统模型。

事实上,在Hugging Face上的150万个模型中,有3万个模型的名称中包含“蒸馏”一词,这通常表明该模型是蒸馏模型。但这些蒸馏模型均未登上该网站的排行榜。

正如人们在平价商店购物一样,蒸馏技术在市场上提供了极具性价比的方案,但选择范围相对有限,并且存在一些缺陷。

蒸馏技术能够使模型在某类任务上表现特别出色,但同时可能会削弱其在其他领域的性能。

苹果公司的研究人员试图建立一个“蒸馏scaling law”,该定律能够根据模型的规模、教师模型的规模以及所使用的算力等因素,预测蒸馏人工智能模型的性能。

他们的研究发现,在某些情况下,蒸馏技术的效果优于传统的监督学习,但前提是必须使用高质量的教师模型。此外,教师模型需要比训练中的模型更大,但不能超过某个阈值。一旦教师模型变得过大,性能提升也会随之停止。

但毋庸置疑的是,这项技术能够帮助创始人更快地将想法转化为实际可用的demo,并显著降低人工智能开发的门槛。

多位人工智能专家指出,探索更智能、更小型的模型的捷径,并不一定是对大型且昂贵的基础模型需求的否定。然而,这一趋势确实引发了人们对于开发大模型公司财务前景的质疑。

基础模型走向末路?

在发布最新季度财报后,英伟达首席执行官黄仁勋在接受CNBC采访时表示:“如今,全球几乎每一位AI开发者”都在使用DeepSeek-R1来蒸馏新模型。

尽管模型蒸馏技术带来了新的机遇,但它也可能会遭受抵制,因为它对OpenAI和Anthropic等公司开发的庞大、昂贵且闭源的模型构成了威胁。云平台Hyperbolic的联合创始人Jasper Zhang表示:“我认为基础模型会愈加商品化。预训练模型的能力存在上限,而我们正越来越接近这个上限。”

Zhang指出,对于大语言模型的领军企业来说,解决问题的关键在于打造受欢迎的产品,而非仅仅是受欢迎的模型——这可能也解释了Meta之所以决定将其Llama模型部分开源的原因。

一位不愿透露姓名的Google DeepMind研究员表示,基础模型公司还可以采取更加激进的策略。例如,拥有推理模型的公司可以移除或减少向用户展示的推理步骤或“痕迹”,以防止这些信息被用于模型蒸馏。OpenAI在其推理模型o1中隐藏了完整的推理路径,但随后发布的小型版本o3-mini则展示了这些信息。

人工智能政策顾问David Sacks在1月接受Fox News采访时表示:“未来几个月,你将看到头部AI公司们纷纷采取措施,试图阻止模型蒸馏。”

然而,在开源AI的“狂野西部”中,试图通过压制蒸馏技术来“将精灵放回瓶子”可能会非常困难。

Soule在同一播客中表示:“任何人都可以在Hugging Face上找到大量由GPT模型生成的数据集,这些数据集经过格式化并设计用于训练,但很可能未经授权就被使用。这像是一个早已公开的秘密。”Soule在同一播客节目中说道。

Anthropic和OpenAI尚未对置评请求作出回应。

来源:人工智能学家

相关推荐