两大美国公司围剿 DeepSeek ,称其窃取美国技术,对其进行技术调查

360影视 2025-01-31 10:12 2

摘要:美国的Microsoft 和 OpenAI 公司正在调查与中国人工智能初创公司 DeepSeek 有关联的组织是否在未经授权的情况下使用该公司的应用程序编程接口访问了 OpenAI 的数据。OpenAI 的一位金融时报消息人士表示,该公司有证据表明该组织窃取了

据彭博社报道,美国的Microsoft 和 OpenAI 公司正在调查与中国人工智能初创公司 DeepSeek 有关联的组织是否在未经授权的情况下使用该公司的应用程序编程接口访问了 OpenAI 的数据。OpenAI 的一位金融时报消息人士表示,该公司有证据表明该组织窃取了数据。与此同时,美国官员怀疑 DeepSeek 使用 OpenAI 的输出训练其模型,这种方法被称为蒸馏。

知识蒸馏通过将大型教师模型(Teacher Model)的知识迁移到轻量级学生模型(Student Model),实现在保持较高性能的同时降低计算资源需求。

美国公司在此领域已推出如DistilBERT(Hugging Face)、MobileBERT(Google)等标杆方案,而DeepSeek则针对中文场景进行了深度定制化创新。

传统的蒸馏技术,忽略语言特性,而DeepSeek在蒸馏损失函数中引入中文分词一致性约束(如基于BERT-CCPoem的分词器),减少歧义短语的迁移偏差。并且通过注入成语、歇后语等文化语料,增强学生模型对中文隐喻和双关语的泛化能力。实验表明,该策略在中文阅读理解任务中提升F1值达4.2%。

在医疗等敏感领域,DeepSeek采用分布式联邦蒸馏(Federated Distillation),各机构本地训练教师模型,仅共享梯度参数而非原始数据。在蒸馏前对训练数据进行语义保留型脱敏(如实体替换+语义嵌入扰动),确保隐私合规性。

并且DeepSeek支持国内的华为昇腾ai平台,针对华为昇腾910B芯片的达芬奇架构,优化张量计算图编译流程,相比通用框架(如PyTorch)实现蒸馏速度提升30%。结合8位定点量化(INT8)与动态范围截断,在国产GPU上实现模型体积减少65%且精度损失小于2%。

DeepSeek-R1-Zero,是首个证明直接强化学习训练有效的模型。它完全抛开了预设的思维链模板(Chain of Thought)和监督式微调(SFT),仅依靠简单的奖惩信号来优化模型行为。

这种方法类似于让一个儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。通过这种方式,DeepSeek-R1-Zero 展现出令人惊讶的通用推理能力,不仅在数学竞赛中取得了惊人成绩,还真正发展出了某种形式的推理能力。

DeepSeek-R1-Zero 采用了 GRPO(Group Relative Policy Optimization)算法,通过组内归一化奖励信号优化策略。GRPO 通过采样一组输出(例如 16 条),计算组内奖励的均值和标准差,生成优势函数,避免了传统 PPO(Proximal Policy Optimization)中需要额外训练价值模型的高成本。

在训练过程中,DeepSeek-R1-Zero 展现出自我进化的能力,例如反思、重新评估推理步骤等复杂行为。这些行为并非预设,而是通过强化学习自然涌现。

在遇到复杂问题时,模型会重新评估之前的步骤,尝试不同的解题思路,这种“顿悟时刻”充分体现了强化学习的魅力,让模型能够自主发展出先进的解题策略。

美国AI企业(如Google、Meta)在蒸馏技术领域已经进行了广泛的专利布局。

Google:专利US10832112B1(基于注意力机制的蒸馏方法)。Meta:专利US11227235B2(动态权重调整的多任务蒸馏)。Microsoft:专利US10990445B2(联邦学习与蒸馏结合技术)。

其中,Google的专利US10832112B1覆盖了“基于多头注意力矩阵的蒸馏损失计算”,若DeepSeek未获得授权而使用相似方法,则存在一定的技术风险。而DeepSeek可通过改进经典方法(如引入中文分词约束、文化语境嵌入)形成差异化技术,降低侵权风险。

并且Google的多数蒸馏专利未在中国布局,DeepSeek在中国市场的技术落地可能无直接专利冲突。若DeepSeek产品涉及美国技术出口(如使用英伟达GPU训练),可能受EAR(出口管理条例)限制,但蒸馏技术本身通常不被归类为敏感技术。

美国ai企业针对DeepSeek进行技术调查,发生在 DeepSeek 推出其 R1 AI 模型之后。

DeepSeek 声称 R1 在推理、数学和常识等领域达到了或超过了领先模型的水平,同时消耗的资源显著减少。DeepSeek 的这一宣布引发了市场的强烈反应,Alphabet、微软、英伟达和 Oracle 等美国科技巨头的市值在随后出现了近 1 万亿美元的集体下跌。

美国 AI 事务主管 David Sacks 表示,有“确凿证据”表明 DeepSeek 利用 OpenAI 模型的输出数据来开发自身技术,但未提供具体证据。OpenAI 也表示知道一些中国公司尝试通过蒸馏技术从美国 AI 公司的模型中获取知识,并强调已采取相应对策来保护其知识产权。

DeepSeek 团队明确表示未使用 OpenAI 模型的输出数据,而是通过强化学习和独特的训练策略实现了高性能。例如,采用了多阶段训练方式,包括基础模型训练、强化学习(RL)训练、微调等。

DeepSeek 的 R1 模型采用了模型蒸馏技术,这是一种让小模型能够学习大模型知识的方法。通过将大模型的推理能力蒸馏到更小的模型中,DeepSeek 能够在保持高性能的同时显著降低计算成本。

这种技术的优势在于,它可以在不牺牲太多性能的情况下,使模型更易于部署和使用。例如,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上实现了 72.6% Pass@1,在 MATH-500 上实现了 94.3% Pass@1,显著优于其他开源模型。

与传统的大型 AI 模型相比,DeepSeek 的 R1 模型在资源消耗方面具有显著优势。通过优化模型架构和训练过程,DeepSeek 能够在保持高性能的同时显著降低计算成本。这使得 DeepSeek 的模型更易于在资源受限的环境中部署和使用,为用户提供了更经济实惠的解决方案。

在 AI 模型训练过程中,数据的质量和数量对模型的性能至关重要。DeepSeek 声称其数据来源合法,并且严格遵守相关法律法规。

然而,微软和 OpenAI 的调查引发了对 DeepSeek 数据获取方式的质疑。如果 DeepSeek 确实未经授权使用了 OpenAI 的数据,这将违反知识产权保护的原则,并可能对其技术成果的合法性产生影响。

OpenAI 称 DeepSeek 利用其模型的输出数据来训练自己的模型,即通过 “蒸馏” 技术获取知识,这种行为可能违反了 OpenAI 的服务协议。尽管 “蒸馏” 技术在 AI 领域是常见的方法,但 OpenAI 明确表示其服务条款禁止用户复制其服务和产生与其竞争的模型。

DeepSeek 团队强调,其训练数据完全符合相关法规,并质疑美方证据的 “技术中立性”,称相似性可能源于通用语料库的共享特征。

来源:大漠过千里

相关推荐