摘要:今天一觉醒来, DeepSeek R1 模型已经正式加入 Azure AI Foundry 和 GitHub 模型目录,开发人员可以快速地进行实验、迭代,并将这款热门模型集成到他们的工作流程中。
春节假期未过半,DeepSeek 掀起的巨浪还在影响着所有和人工智能有关的领域。
今天一觉醒来, DeepSeek R1 模型已经正式加入 Azure AI Foundry 和 GitHub 模型目录,开发人员可以快速地进行实验、迭代,并将这款热门模型集成到他们的工作流程中。
这让大家感慨:没有永恒的竞争对手,也没有永恒的合作伙伴,每家公司都应该快速拥抱变化。
毕竟昨天的微软还在说:DeepSeek 非法窃取了 OpenAI 的知识产权。而今天的微软:DeepSeek 现已在我们的 AI 平台上推出,欢迎大家尝试。
微软公司人工智能平台副总裁 Asha Sharma 表示,DeepSeek R1 经过了严格的红队和安全评估,包括模型行为的自动评估和广泛的安全审查,以降低潜在风险。
与此同时,DeepSeek 的 R1 和 V3 均已登陆 AI 代码编辑器 Cursor。
亚马逊云科技也宣布:企业和开发者可以在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek-R1 模型,此外还可以使用 AWS Trainium 和 AWS Inferentia 通过 Amazon Elastic Compute Cloud (Amazon EC2) 或 Amazon SageMaker AI 以经济高效的方式部署 DeepSeek-R1-Distill 模型。
亚马逊首席执行官 Andy Jassy。图源:https://x.com/ajassy/status/1885120938813120549
距离 DeepSeek R1 引爆 AI 圈只不过十天,这些科技公司的反应速度再次证明了 DeepSeek 给海内外带来的震撼程度。
它甚至让 OpenAI 的高层们首次对别家公司的模型进行公开点评,实属罕见:
图源:https://x.com/lvwerra/status/1884314249574662439
首先,DeepSeek 模型的进步再次表明,2025 年的人工智能竞赛将非常激烈,比如从 V3 到 R1 的迭代只间隔短短几周时间。
其次,DeepSeek 颠覆了人们对 AI 成本的看法。
OpenAI 前政策研究员 Miles Brundage 表示,R1 使用了两个关键的优化技巧:更高效的预训练和思维链推理强化学习。这种组合使模型能够实现 o1 级性能,同时使用更少的计算能力和资金。
DeepSeek 的成功让人们思考,是否真的需要数十亿美元的计算才能赢得人工智能竞赛。传统观点认为,大型科技公司将主宰人工智能的下一步,仅仅是因为它有足够消耗的‘闲钱’。现在,看起来大型科技公司只是在烧钱。计算出这些模型的实际成本有点棘手,由于制裁,DeepSeek 可能‘无法诚实地说出它拥有什么类型的 GPU 和多少个 GPU’。
但围绕 DeepSeek 的争议可能刚刚开始。
一方面,OpenAI 和微软目前正在调查这家中国竞争对手是否使用了 OpenAI 的 API 来训练 DeepSeek 的模型。彭博社本周早些时候报道称,微软的安全研究人员去年底通过 OpenAI 开发者账户检测到大量数据被使用,这些数据可能与 DeepSeek 有关。
另一方面,据彭博社报道,美国正在调查 DeepSeek 是否通过新加坡的第三方购买了先进的英伟达芯片,以规避相关限制。
图源:https://www.bloomberg.com/news/articles/2025-01-31/us-probing-whether-deepseek-got-nvidia-chips-through-singapore
DeepSeek 是否真的违反了上述限制?在一篇长文中,著名分析师 Ben Thompson 表示,从 DeepSeek 以往公开的每一代模型的研发细节来看,大量创新方法都是为克服使用 H800 而不是 H100 所隐含的内存带宽不足问题而设计。
‘DeepSeek 实际上对每个 H800 上的 132 个处理单元中的 20 个进行了编程,专门用于管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek 工程师不得不降级到 PTX,这是 Nvidia GPU 的低级指令集,基本上就像汇编语言一样。这是一个疯狂的优化级别,只有在使用 H800 时才有意义。’
‘DeepSeek 在设计此模型时做出的所有决定只有受限于 H800 时才有意义;如果 DeepSeek 可以使用 H100,他们可能会使用更大的训练集群,而专门针对克服带宽不足的优化会少得多。’
‘我上面提到,如果 DeepSeek 可以使用 H100,他们可能会使用更大的集群来训练他们的模型,因为这将是更简单的选择;事实上,他们没有,而且带宽受限,这推动了他们在模型架构和训练基础设施方面的许多决策。看看美国实验室:他们没有花太多时间进行优化,因为 Nvidia 一直在积极推出更强大的系统来满足他们的需求。阻力最小的路线就是向 Nvidia 付费。然而,DeepSeek 只是证明了另一条路线是可行的:在较弱的硬件和较低的内存带宽上,大量优化可以产生显着的效果;仅仅向 Nvidia 支付更多费用并不是制作更好模型的唯一方法。’
在文章中,Ben Thompson 还强调了 DeepSeek R1 带给所有科技巨头的长期影响:
从长远来看,模型商品化和更便宜的推理(DeepSeek 也证明了这一点)对大型科技公司来说非常有利。
如果微软能够以极低的成本为客户提供推理服务,那么这意味着微软在数据中心和 GPU 上的支出会更少,或者,考虑到推理成本要低得多,使用率可能会大幅提高。
另一个大赢家是亚马逊:如果有非常高质量的开源模型,它们可以以远低于预期的成本提供服务。
苹果也是大赢家。推理所需的内存需求大幅减少,使边缘推理更加可行,而苹果拥有最好的硬件。Apple Silicon 使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池;这意味着苹果的高端硬件实际上拥有最好的推理消费芯片(Nvidia 游戏 GPU 的最大 VRAM 为 32GB,而苹果的芯片的最大 RAM 为 192 GB)。
与此同时,Meta 是最大的赢家。去年秋天,我已经阐述了 Meta 业务的各个方面如何从人工智能中受益;实现这一愿景的一大障碍是推理成本,这意味着,考虑到 Meta 需要保持领先地位,推理成本大幅降低以及训练成本大幅降低将使这一愿景更容易实现。
与此同时,谷歌的情况可能更糟:硬件要求的降低削弱了谷歌 TPU 的相对优势。更重要的是,一个零成本推理的世界增加了取代搜索的产品的可行性和可能性。当然,谷歌的成本也降低了,但任何改变现状的行为都可能是负面的。
经此一役,今年的大模型格局将会如何演变,你怎么看?
来源:新浪科技