从OpenAI对DeepSeek的指控看“蒸馏”行为的合法性

360影视 2025-02-05 09:50 3

摘要:近日,人工智能领域再掀波澜,外媒对于“横空出世”的新模型DeepSeek提出了质疑,主要集中在两个方面:一是DeepSeek是否采用了所谓的“distillation”技术(即知识蒸馏),从OpenAI或其他大模型中提炼知识,再变成自己的模型,这看上去像是一种


作者 | 杨皓森 王雨乔

杨皓森,海瑞智法联合创始人、CEO

王雨乔,复旦大学中国金融法治研究院助理研究员

目次

· 引言

一、争议背景

二、何为大模型“蒸馏”技术

三、DeepSeek“蒸馏”OpenAI大模型的合法性分析

(一)“蒸馏”的争议解决机制及法律适用

(二)蒸馏行为的知识产权法分析

(三)蒸馏行为的不正当竞争法分析

四、蒸馏行为对人工智能产业及技术发展的影响

五、未竟的思考

引 言Foreword

近日,人工智能领域再掀波澜,外媒对于“横空出世”的新模型DeepSeek提出了质疑,主要集中在两个方面:一是DeepSeek是否采用了所谓的“distillation”技术(即知识蒸馏),从OpenAI或其他大模型中提炼知识,再变成自己的模型,这看上去像是一种“欺骗”或“复制”他人成果;二是OpenAI表示,他们在去年秋天发现与DeepSeek相关的大量针对OpenAI GPT模型的访问,这些访问通过 API 调用,以各种问题大批量提取了GPT模型中的知识,并借此训练出了DeepSeek。针对这一争议,本文并不论断是非对错,而是想给大家介绍大模型里普遍存在的 distillation(蒸馏) 过程,让文科背景的朋友也能明白这一概念的原理,而关于事件本身的争议,涉及技术、法律和行业伦理等多重因素,需要从多个角度理性看待。

一、争议背景

随着人工智能技术的迅猛发展,大规模预训练模型(GPT、BERT 等)已成为推动自然语言处理(NLP)、计算机视觉等领域突破的重要支撑。然而,此类模型计算资源消耗极大,在推理与训练过程中对计算能力的需求较高,使其难以在资源受限环境(如移动终端、边缘计算)中直接应用。在此背景下,知识蒸馏(Knowledge Distillation, KD)作为一种有效的模型压缩技术,使得轻量化模型能够在计算资源受限的场景下依然保持较高的性能。

DeepSeek因其2025年推出的人工智能模型 DeepSeek-R1所具备的开源策略、高效的成本结构以及卓越的模型性获得广泛关注。DeepSeek-R1的训练成本仅为 OpenAI 最新大模型的二十分之一。这一成本优势使得 DeepSeek 在人工智能模型的可及性和计算资源优化方面具有显著优势,并促使更多研究机构和企业能够低成本获取高性能模型。然而,DeepSeek的崛起不仅带来了技术突破,也引发了围绕知识产权、数据隐私与人工智能伦理的法律争议。OpenAI指控DeepSeek在未经授权的情况下,违规使用其模型进行知识蒸馏并涉嫌侵权。

本文立足于对蒸馏大模型的基本原理的系统梳理,结合现行法律框架,分析蒸馏过程中涉及的法律合规问题,力求为企业、研究机构提供合理的技术与法律建议,以确保知识蒸馏技术的合法、合规应用。

二、何为大模型“蒸馏”技术

大模型知识蒸馏(Knowledge Distillation)由Hinton等人在2015年提出,作为一种模型压缩方法,通过将高复杂度的大模型(教师模型)知识迁移至轻量化模型(学生模型),在降低计算需求的同时保持较高的推理能力。该技术的推广在一定程度上解决了计算资源受限环境下的模型应用问题。蒸馏过程涉及大量数据的采集、存储与处理等行为。

知识蒸馏的核心原理是通过让一个规模较大的“教师模型”训练一个规模较小的“学生模型”,使学生模型能够在计算资源受限的环境中最大化接近教师模型的性能。可以将这一技术方法类比为“一名老师对学生的经验传授过程”,想象一个教授(教师模型)向一名学生(学生模型)传授复杂的知识。但这个教授不仅让学生知晓这个知识的内容或答案(即模型的输出内容Output),还通过深入分析给学生讲解知识或答案形成的具体原因,使学生能够理解知识或某一答案的内在逻辑,并在考试时(向模型输入指令Prompt时)做出与老师相近的高质量回答(模型输出的内容)。

在机器学习中,这种“经验传授”通过以下三个核心步骤实现:

(1) 教师模型训练

(2) 软标签知识传递(Soft Label Transfer)

• “软标签” 是指教师模型在预测时,不仅输出最终结论,还输出各个结论的生成原因及概率分布。例如,在图像分析的模型中,普通模型分类任务中可能会直接根据图片内容输出一个结论:“这是一个xxx”,但教师模型会在给出一个结论的基础上提供更为详细的分析过程及概率分布,如:“80%是xxx,15%是xxx,5%是xxx”。这一概率信息被称为 “暗知识”(Dark Knowledge),因为它提供了教师模型对不同类别之间细微区别的理解,而不仅仅是一个最终答案。

(3) 学生模型训练

根据蒸馏过程中教师模型向学生模型传递知识的方式不同,知识蒸馏可以分为以下三类:

(1) 基于输出的蒸馏(Response-Based Distillation):学生模型直接学习教师模型的最终预测输出,通过对比两者的输出概率分布,使学生模型逐步接近教师模型的行为。

(2) 基于特征的蒸馏(Feature-Based Distillation): 比基于输出的蒸馏更强大,能够帮助学生模型更深入地理解数据。

(3) 基于关系的蒸馏(Relation-Based Distillation):适用于跨模态学习(如图像-文本联合学习) 和 强化学习,可以帮助学生模型更好地理解数据结构。

知识蒸馏是一种高效的模型压缩方法,能够在降低计算成本的同时保持高性能,使 AI 模型能够在边缘设备、移动端、实时应用等计算资源受限的环境中发挥作用。不同类型的蒸馏方法提供了多种知识传递机制,适用于不同的 AI 任务。

三、DeepSeek“蒸馏”OpenAI大模型的合法性分析

(一)“蒸馏”的争议解决机制及法律适用

OpenAI《服务条款》将争议解决机制约定为仲裁并将仲裁地点约定为美国加利福尼亚州旧金山市(San Francisco, California)。这一仲裁协议的适用范围通常足以覆盖涉及 Deepseek 使用 OpenAI 服务所可能引发的知识产权侵权(intellectual property infringement)、不正当竞争(unfair competition)以及违约(breach of contract)等法律纠纷。

《服务条款》第 15.12 条又约定了法律适用(Governing Law)及司法管辖(Jurisdiction)。该条款明确指出,本协议(包括《使用条款》及相关商业条款)应受加利福尼亚州法律管辖(excluding its conflict of law principles,即不适用加州法律中的冲突法规则)。若争议事项不属于仲裁协议的适用范围,则应提交位于加利福尼亚州旧金山市的州或联邦法院(state or federal courts located in San Francisco, California)裁决。

因此,在适用该争议解决条款的情况下,位于旧金山的仲裁庭(Arbitral Tribunal)在审理案件时可能会适用加州法律,包括适用相关的美国联邦法律和加州州法律。

(二)蒸馏行为的知识产权法分析

目前,关于AI模型的知识产权界定模糊,AI模型的训练数据和方法是否构成“知识产权”尚无全球统一标准。例如,美国对AI模型版权的保护尚不明确,而中国近期发布的生成式AI管理办法更多聚焦数据合规而非模型结构。因此,我们将目光重点放置在OpenAI 用户协议。

1. OpenAI用户协议所涉核心条款梳理

根据OpenAI的《Terms of Use》(以下简称“协议”),关于用户输入(Input)与输出(Output)内容的所有权规定如下:

(1)输入内容(Input)的权属规定

- 用户保证“输入内容”的合法性:协议要求用户“保证对输入内容拥有合法权利”(“You are responsible for Content, including ensuring that it does not violate any applicable law or these Terms. You represent and warrant that you have all rights, licenses, and permissions needed to provide Input to our Services.”)。

- 用户保留“输入内容”的所有权:协议要求用户需要保留其对输入内容的所有权,强调用户对其“输入内容”享有全部所有权。

(2)输出内容(Output)的权属规定

- 权利转让条款:协议明确“将输出内容的所有权、所涉全部权利和利益均转让给用户”(“We hereby assign to you all our right, title, and interest, if any, in and to Output. ”)。

2. 协议解释与权利归属的法律逻辑——OpenAI 对用户输入内容与输出内容均不享有权利的法律分析

根据 OpenAI 用户协议(Terms of Use)关于“内容(输入 + 输出)所有权”的相关规定,可以得出结论:OpenAI 对用户使用其服务的输入内容(Input)及输出内容(Output)均不享有权利。因此,在涉及蒸馏技术(Distillation)时,如果所使用的数据直接来源于 OpenAI 提供模型服务所生成的内容,则 OpenAI 不具备权利基础,也无法主张相应权利。

(1)OpenAI 对输入内容(Input)不享有所有权

用户协议明确要求,用户在使用 OpenAI 服务时,对其输入内容(Input)应当享有合法的权利基础,并承担相应保证义务(Warranty)。此外,协议进一步规定,用户“保留”(retain)对输入内容的所有权。这一措辞表明,OpenAI 并不因用户在其平台上输入内容而获得任何所有权或相关权利,用户仍然是输入内容的唯一权利主体。因此,OpenAI 无法就用户输入的内容主张任何权利,也无权基于该等内容提出版权或相关法律诉求。

(2)OpenAI 对输出内容(Output)亦不享有所有权

对于用户通过 OpenAI 生成的输出内容(Output),用户协议采用了“assign”(转让)一词,而非“license”(许可)或“permission”(授权)。这一措辞具有重要的法律意义:“assign”通常指的是完整且不可撤销的权利转让(Full Assignment),意味着 OpenAI 已将其可能享有的任何权利、利益完整地转让给用户。换言之,用户成为该输出内容的唯一权利主体,而 OpenAI 在法律上不再对该内容享有任何权利。

(3)蒸馏技术应用下的数据权利人

在涉及蒸馏技术的数据使用争议中,若相关数据完全来源于 OpenAI 生成的输出内容,根据用户协议的规定,OpenAI 已将该等内容的所有权利转让给用户。因此,OpenAI 并非该等内容的权利主体,缺乏任何法律依据对该内容主张权利。

基于上述分析,OpenAI 用户协议已明确排除了其对输入内容和输出内容的权利主张,确保用户对相关内容享有完整的所有权。由于 OpenAI 既不能对用户输入内容提出权利主张,也已将输出内容的权利完全转让给用户,因此,在涉及蒸馏技术使用 AI 生成内容的数据问题上,OpenAI 不具有权利基础。同样地,根据美国版权局的立场,版权保护的客体必须具备“人类创作”(human authorship)的属性。换言之,只有由自然人通过其独立的智力创作活动所形成的作品,才能依法获得版权保护。在此框架下,由人工智能(Artificial Intelligence, AI)系统独立生成的内容,由于缺乏人类作者的直接创造性贡献,通常不被认定为受版权法保护的作品。美国版权局在个案审查实践中反复强调,著作权保护的核心要素在于人类的创造性表达(creative expression by a human author)。对于完全由AI系统自主生成,且未经过人类作者实质性编辑、选择或组织的内容,版权局一般不予登记,亦即该等内容不享有版权法赋予的专有权利,即便该内容符合传统意义上的作品形式,也难以受到现行版权法的保护。因此,OpenAI等人工智能企业对其生成内容(Output)主张著作权的法律基础亦不成立。

(三)蒸馏行为的不正当竞争法分析

在美国法律体系下,不正当竞争(unfair competition)主要受到《兰哈姆法案》(Lanham Act)、《谢尔曼反托拉斯法》(Sherman Antitrust Act)及加利福尼亚州《不正当竞争法》(California Unfair Competition Law, UCL)等相关法律规制。在此背景下,针对 OpenAI 服务输出数据进行蒸馏(distillation)是否构成不正当竞争,需从OpenAI 造成“竞争性损害”(competitive harm),以及该行为是否损害市场消费者和公共利益(consumer and public interest harm)二个层面加以分析。

1. 基于 OpenAI 服务输出数据进行蒸馏是否对 OpenAI 造成“竞争性损害”

(1)竞争关系的确认

在不正当竞争的分析框架下,认定竞争性损害的前提是双方是否构成竞争关系(competitive relationship)。用户通过 OpenAI 生成的输出内容进行蒸馏,从而训练出一个功能类似的“学生模型”(student model)。由于该学生模型在应用场景、市场定位、目标用户群等方面与 OpenAI 提供的模型具有高度相似性,因此双方在市场上形成了直接竞争关系,并且客观上存在“争夺同一交易机会”(competing for the same business opportunities)的可能性。这种市场竞争关系是评估竞争性损害的基础。

(2)竞争性损害的认定

在美国不正当竞争法的框架下,竞争性损害通常指某一行为对竞争对手的市场地位、收益能力或业务模式造成实质性的削弱或破坏。在本文语境中,蒸馏行为可能导致 OpenAI 的市场份额减少,并降低其服务的商业价值。然而,竞争性损害本身并非违法,关键在于该损害是否构成“不正当竞争”(unfair competition)或违反其他相关法律(如商业秘密法或合同法)。

根据 OpenAI 用户协议的规定,用户对其通过 OpenAI 服务生成的输出内容享有完整的所有权,包括获取、使用、修改及商业化权利。由于用户已被明确授予对输出内容的完整控制权,因此在用户获取和使用输出数据的过程中,其行为具有正当性。在此情况下,即便蒸馏行为可能对 OpenAI 造成竞争性损害,该损害仍属于正当竞争(fair competition)的一部分,而非法律所规制的不正当竞争行为。因此,OpenAI 若试图以“不正当竞争”为由阻止蒸馏行为,需证明用户在获取和使用数据的过程中存在额外的不正当行为,例如 合同违约(breach of contract)、恶意干涉(tortious interference)、虚假陈述(misrepresentation)或商业秘密侵占(misappropriation of trade secrets),否则仅凭竞争性损害不足以构成法律上的不正当竞争。

2. 基于 OpenAI 服务输出数据进行蒸馏是否损害市场消费者和公共利益

不正当竞争分析不仅关注竞争者之间的利益,还关注该行为是否对市场中的消费者及公共利益造成损害。在美国反垄断法和不正当竞争法的理论框架下,评估市场损害的标准主要包括 “公平取向”(fairness-based approach) 和 “效率取向”(efficiency-based approach)。

(1)公平取向(Fairness-Based Approach)

公平取向主要关注市场竞争是否在公平的条件下进行,是否存在滥用市场支配力、虚假陈述或其他违反商业伦理的行为。按照该标准,蒸馏行为若涉及以下情形,可能被认定为不正当:

• 虚假归属(false attribution):如果蒸馏模型的输出被误导性地标记为 OpenAI 生成的内容,可能导致消费者混淆(consumer confusion),进而违反《兰哈姆法案》的虚假标识(false designation of origin)条款。

• 恶意复制(bad faith copying):若蒸馏模型的训练方式直接复制 OpenAI 生成的独特内容,而未进行任何实质性改进,可能被认定为不正当搭便车(free-riding)或商业诋毁(commercial disparagement)。

然而,在用户依据合同合法获取输出数据的前提下,蒸馏行为本身并不构成对市场公平性的破坏。因此,除非 OpenAI 能证明蒸馏模型存在误导性营销或其他不正当商业行为,否则该行为不会因公平性问题而被禁止。

(2)效率取向(Efficiency-Based Approach)

效率取向主要关注市场竞争是否提升了整体经济效率,促进了技术创新,降低了消费者成本。在该视角下,蒸馏行为可能具有以下正面影响:

• 技术扩散(technology diffusion):蒸馏技术能够降低 AI 模型的计算成本,提高小型企业和个人开发者获取先进 AI 能力的可能性,从而促进市场竞争和技术进步。

• 消费者福利(consumer welfare):更多竞争者的加入可能带来更低的价格、更高的服务质量和更多的创新,从而提升消费者福利(consumer surplus)。

若蒸馏行为导致市场上出现质量较低、可靠性较差的模型,可能损害消费者利益,降低 AI 产业的整体信任度。在此情况下,监管机构可能会从消费者保护角度介入,对市场秩序进行干预。

在类似案件中,美国法院通常采取基于事实的个案分析方式。例如,在 Google LLC v. Oracle America, Inc.(2021)一案中,美国最高法院认定 API 代码的合理使用(fair use)促进了创新和市场竞争,最终支持了对代码的有限复制。类似地,在 AI 训练数据的使用问题上,法院可能倾向于认定,合理的数据使用行为有助于技术进步,而非构成不正当竞争。

OpenAI输出数据进行蒸馏的行为是否构成不正当竞争,主要取决于其对 OpenAI 的竞争性损害是否具有法律上的“正当性”,以及其对市场和公共利益的影响如何被衡量。关于是否构成竞争性损害,由于 OpenAI 用户协议已赋予用户对输出数据的完整权利,用户基于合法获取的数据进行蒸馏训练,不构成不正当竞争,即便该行为可能导致 OpenAI 市场份额减少,也属于正常的市场竞争行为。关于是否损害消费者和公共利益,在公平取向下,若蒸馏模型涉及虚假归属或恶意复制,可能损害市场公平性,但若用户合理使用数据并进行技术创新,则不会构成不正当竞争。在效率取向下,蒸馏技术可能提升市场竞争、降低成本、促进技术扩散,因而对消费者和公共利益具有积极作用。

四、蒸馏行为对人工智能产业及技术发展的影响

在蒸馏的过程中,毫无疑问,注入教师模型的市场收益难免会受到学生模型的挤压,从而影响领先企业对教师模型优化和研发的动力。但这一影响会否最终降低社会整体福利,还需要从多个角度全面观察。

一方面,教师模型的收益可能会受到一定影响,但不会完全被学生模型替代,领先企业仍有动力研发高端模型。学生模型由于参数更少、计算需求更低、推理速度更快,在部署和使用成本方面具有较大优势,因此容易被企业和用户广泛采用。不过,尽管学生模型可以在推理任务上替代部分教师模型的功能,但这并不意味着教师模型会完全失去市场:一方面,高端市场仍需教师模型:许多高端应用(如前沿科研、企业级人工智能系统)需要最先进的性能,这些需求不会被学生模型完全满足;另一方面,教师模型仍然是必要的:学生模型的优化仍然依赖于教师模型的训练,若教师模型停滞不前,学生模型的进步也会受到限制。

另一方面,如果市场机制合理运作,教师模型和学生模型可以形成互补关系,从而提升社会福利;但如果市场过度依赖学生模型,可能会在长期内抑制AI的进步,损害社会整体利益。学生模型通过降低人工智能使用成本(小企业、个人开发者可以使用更轻量的模型,促进创新和市场竞争)、提高计算资源利用率(减少计算能耗,提高计算效率,使更多资源投入其他领域)以及加速人工智能的普及(让更多行业能够使用AI,推动产业智能化升级)推动社会福利提升。教师模型也可能因研发动力下降或模型质量下降产生负面影响。

五、未竟的思考

模型蒸馏(Knowledge Distillation)作为一种技术手段,用于将大型模型(教师模型)的知识迁移到更小、更高效的模型(学生模型),其本身是学术研究和工业界广泛使用的合法技术,但目前仍处于法律与伦理的灰色地带,一方面源于AI模型的知识产权界定模糊,训练数据和方法是否构成“知识产权”尚无全球统一标准;另一方面源于开源与闭源的边界模糊,如果OpenAI的模型部分借鉴了开源社区成果(如早期的Transformer架构),其指控的正当性可能受到质疑。

这一事件对于行业的影响无疑是巨大的,若指控成立,可能导致头部公司进一步收紧技术开放,阻碍学术界和小公司的创新,导致技术闭源化加剧。同时,企业可能被迫投入更多资源追踪数据来源,甚至转向完全自研数据,推高AI开发门槛,带来合规成本的上升。

OpenAI需证明DeepSeek有意且系统地“复制”其模型,而非通过独立训练达到相似效果,这在技术上极具挑战性。由于目前公开信息有限,需等待双方披露更多技术细节(如训练数据日志、模型架构对比)。我们需要理性看待争议,避免单方面定论。不过,这一事件凸显了AI时代对数据使用、模型衍生品规则的迫切需求以及行业规范的必要性。

这一争议本质上是技术快速发展与现有法律框架脱节的体现。模型蒸馏等技术本身是中立的,关键在于应用时的合规性。未来,行业可能需要通过建立数据溯源和模型衍生品声明机制、推动跨国知识产权协议的更新、鼓励企业通过合作而非对抗解决技术复用问题等方式减少类似纠纷。

对于普通用户和开发者而言,关注技术透明度和合规性,选择尊重开源协议和用户条款的工具,可能是规避风险的最佳实践。

作者:杨皓森 王雨乔

编辑:Sharon


来源:知产前沿

相关推荐