LexFridman五小时播客实录:中美AI竞争与国运

360影视 2025-02-08 00:50 2

摘要:原视频在这个地方: https://www.youtube.com/watch?v=_1f-o0nqpEIab_channel=LexFridman在这个对谈中,Lex Fridman 与半导体分析专家 Dylan Patel(SemiAnalysis 创始人

今天早上,Lex Fridman 发布了一个颇有深度的播客,总长约 5 个小时。 原视频在这个地方: https://www.youtube.com/watch?v=_1f-o0nqpEIab_channel=LexFridman 在这个对谈中,Lex Fridman 与半导体分析专家 Dylan Patel(SemiAnalysis 创始人)和人工智能研究科学家 Nathan Lambert(艾伦人工智能研究所)展开对话,深入探讨 DeepSeek AI 及其开源模型 V3 和 R1,以及由此引发的 AI 发展地缘政治竞争,特别是中美在 AI 芯片和技术出口管制领域的博弈。 对话嘉宾介绍 Lex Fridman: 麻省理工学院人工智能研究员,播客《Lex Fridman Podcast》主持人,专注于深度学习和自动驾驶研究。 Dylan Patel: SemiAnalysis 创始人,专注于半导体、GPU、CPU 和通用 AI 硬件研究分析。 Nathan Lambert: 艾伦人工智能研究所研究科学家,AI 博客 Interconnects 博主。 我做了一个全文翻译,非常值得一读。但这篇翻译超 10 万字,超出了公众号文章的最大长度,所以我把它做成了一份 PDF,公众号里回复 Lex459 可获得该 pdf。 本文则是对这 10 万字内容的要点总结,俗称「量子速读」 对话内容「量子速读」 DeepSeek 时刻 在对话开始时,Lex Fridman 简要评价了 OpenAI 新发布的 o3-mini 推理模型,认为其性能与 DeepSeek-R1 相似,但 R1 模型具备思维链推理能力和开源特性,而 o3-mini 则不具备。Lex 认为,DeepSeek 的出现是 AI 发展史上的一个重要时刻,具有 地缘政治和技术双重意义。 DeepSeek-R1 和 DeepSeek-V3 模型详解 DeepSeek-V3: DeepSeek 公司推出的开源混合专家 Transformer 语言模型,属于指令模型,类似于 ChatGPT。 DeepSeek-R1: DeepSeek 推出的推理模型,与 V3 在训练步骤上有很多重叠,但采用了全新的推理训练方法。 开源权重模型 开源权重 指的是语言模型的权重数据公开在互联网上,供人下载和使用。 开源许可证 规定了模型的使用条款,不同模型可能采用不同的许可证。 真正的开源 应该包括发布训练数据、公开训练代码和开源模型权重。 DeepSeek 的模型是目前最开放的前沿模型之一 ,开源权重并采用宽松的 MIT 许可证。 开源权重模型 允许用户在离线环境下运行模型,完全掌控数据,避免数据泄露风险。 预训练与后训练 预训练: 模型通过预测海量互联网文本数据中的下一个 token,学习语言的通用规律,得到基础模型。 后训练: 在预训练模型基础上,进行指令微调、偏好微调(RLHF)和强化微调等,使模型具备更符合人类期望的行为。 指令微调: 使模型理解和响应指令。 偏好微调 (RLHF): 使模型的回复更符合人类的阅读偏好。 强化微调: 应用于推理模型,通过强化学习技术提升模型在可验证领域的性能,例如数学和编程。 DeepSeek-V3 和 DeepSeek-R1 用户体验差异 DeepSeek-V3: 快速生成 token,输出类似 Reddit 或 Stack Overflow 的高质量答案。 DeepSeek-R1: 先输出思维链过程,解释和分解问题,再给出最终答案,允许用户看到模型推理过程。 DeepSeek 低训练成本分析 混合专家模型 (MoE): 模型中不同的部分被激活处理不同任务,降低训练和推理成本。DeepSeek 模型参数量巨大 (超 6000 亿),但每次只激活一部分参数 (约 370 亿)。 潜在注意力 (MLA): DeepSeek 发明的新技术,用于减少推理过程中的内存占用,提高效率。 低级优化: DeepSeek 深入 CUDA 层以下进行 GPU 优化,提高 GPU 利用效率。 混合专家模型 (MoE) 详解 稠密模型: 生成每个 token 时,模型的每一个参数或神经元都会被激活。 专家混合模型: 每次只激活模型中一部分专家,降低计算成本。 Transformer 架构中的 MoE: 主要应用于 Transformer 架构中的前馈神经网络模块,显著提高参数利用率。 DeepSeek MoE 的创新: 采用极高的稀疏因子,从 256 个专家中激活 8 个,提高了效率和复杂性,但也增加了负载均衡和通信调度的挑战。 辅助损失: MoE 模型中常用的一种机制,用于平衡各个专家的使用率。DeepSeek MoE 可能改进了路由机制,摆脱了辅助损失。 “苦涩的教训” 与 AI 发展方向 “苦涩的教训”核心思想: 在深度学习领域,最终胜出的方法是具有可扩展性的学习和搜索方法,避免引入过多的人为先验知识。 未来发展方向: 后训练领域可能会迎来更多突破,低级别优化和高级算法层面都至关重要。DeepSeek 的创新是技术突破,也可能预示着未来发展的大方向。 YOLO 运行 (You Only Live Once): 在进行大规模训练前,进行大量实验和消融研究,然后 All-in,进行大规模训练。2025 年可能是 YOLO 运行之年,各实验室都在全力冲刺。 DeepSeek 计算集群 High-Flyer 对冲基金背景: DeepSeek 的母公司 High-Flyer 是一家对冲基金,长期从事量化交易,拥有大量 GPU 资源。 DeepSeek 早期集群规模: 2021 年宣称拥有 10,000 个 A100 GPU,用于量化交易模型和自然语言处理任务。 DeepSeek 当前 GPU 规模预估: SemiAnalysis 估计 DeepSeek 实际拥有的 GPU 数量可能接近 50,000 个,用于多种任务。 DeepSeek V3 训练成本: 论文公开只使用了 2,000 个 H800 GPU 进行 V3 模型的预训练。 计算资源对比: DeepSeek 的计算资源在全球范围内名列前茅,仅次于 OpenAI、Anthropic 等少数公司,但规模仍小于 Meta (约 6-10 万 H100 等效 GPU)。 中国 GPU 出口管制 Hopper 架构与 H100/H800/H20: H100: Hopper 架构 GPU,高性能,但对中国出口管制。 H800: 为中国市场定制的 H100 阉割版,FLOPS 性能与 H100 相当,但互连带宽降低,后被禁止出口。 H20: H800 被禁后,Nvidia 推出新款芯片,仅在 FLOPS 方面有所削减,但互连带宽保持不变,甚至在内存带宽和容量方面有所提升,目前允许对中国出口。 出口管制政策目的: 减缓中国 AI 技术发展速度,限制中国获得构建 AGI 所需的大规模训练运行所需的计算资源规模和密度,限制中国 AI 应用的普及程度,而非完全阻止中国 AI 技术发展。 出口管制的影响: 可能限制中国 AI 应用的普及程度,但无法完全阻止中国训练先进 AI 模型。DeepSeek V3 证明即使在有限的 GPU 资源下,中国团队仍能在 AI 前沿领域取得突破。 计算资源差距的累积效应: 美国希望保持计算资源差距,以确保在 AI 领域保持领先优势。出口管制策略旨在保持技术差距,限制中国 AI 应用的普及程度,最终影响经济效益、军事能力和生产力提升。 推理模型与出口管制 推理模型的重要性: R1 和 o1 等推理模型的出现,大幅提升推理在复杂任务中的重要性,加大对计算资源的需求。 推理计算成本高昂: OpenAI o3 解决 ARC-AGI 任务,每个问题计算成本约为 5-20 美元。大规模推理服务需要部署大量 GPU。 出口管制限制中国 AI 应用普及: 即使中国能获得一定数量的 GPU,但难以像美国公司那样拥有数十万甚至数百万 GPU 支持大规模推理服务。 AGI 时间表预测 Dario Amodei 预测: 2026 年将出现超级 AI,可能构成安全威胁。 Nathan Lambert 预测: 2030 年或稍晚,未来几年会持续出现快速进展,但难以预测具体时间。 Dylan Patel 预测: 某些 AGI 能力已实现,但大规模部署成本高昂,AGI 到来是一个渐进过程,可能在 2027-2028 年左右。 AGI 定义: 语言模型本身就是一种 AGI,但 AI 公司的目标是更具自主性的 AI,能够独立完成任务。 超级 AI: Dario 认为的超级人工智能,一旦掌握,就能对其他国家构成重大军事和地缘政治优势的技术。 AI 军事应用: 达里奥担心中国可能比美国更快地将 AGI 应用于军事领域,尤其是在无人机等非对称武器领域。 中国的制造能力与 GPU 出口管制 中国工业能力: 中国拥有强大的工业能力,可快速建设数据中心和电力基础设施,但芯片制造更专业。 出口管制时机把握: 出口管制旨在阻止中国获得尖端芯片,但如果时机把握错误,可能促使中国加大芯片自主研发力度,最终超越美国。 中国 YOLO 战略: 如果中国最高层决定 all-in AI 领域,可能比美国更快地建设大规模数据中心。出口管制旨在限制中国获得最先进的美国芯片,延缓其 AI 发展速度。 半导体限制目的: 限制中国人工智能发展和技术军民融合。 与中国的冷战与台湾问题 DeepSeek 时刻与冷战开端: DeepSeek 的崛起可能标志着中美 AI 冷战的开始。 出口管制与台湾风险: 出口管制可能促使中国对台湾采取军事行动,以获取半导体制造能力。 和平与贸易的世界秩序: 全球霸主或地区霸主的存在往往带来相对和平,但权力转移过程可能引发冲突。 美国策略: 控制 AI 技术,维持全球霸主地位。 台积电与台湾 台积电在半导体产业中的地位: 全球最大的芯片代工厂,掌握最先进的芯片制造工艺。 代工模式的成功: 规模经济效应,降低芯片制造成本,促进芯片专业化和多样化。 台湾对台积电的重要性: 人才、职业道德、专注度等文化因素,以及政府支持。 美国能否复制台积电模式: 技术上可以,但文化、成本等方面存在挑战。需要政府支持和长期投入。 台积电的脆弱性: 研发中心集中在台湾新竹、俄勒冈州希尔斯伯勒和韩国平泽,易受地缘政治风险影响。 半导体供应链安全: 没有台积电,全球汽车、电子产品等产业将受到巨大冲击。 美中关系未来走向 分化趋势: 中美关系持续分化,美国限制对华技术出口,中国也采取反制措施。 独立经济体的未来: 出口管制可能导致中美走向经济脱钩,形成独立的经济体。 避免战争与分化: 分化可能无法避免战争,全球霸主地位的维持可能带来相对和平,但多极化格局下,世界秩序面临挑战。 美国策略与 AI 霸主地位: 美国希望通过控制 AI 技术维持全球霸主地位。 最佳 AI GPU GPU 三个关键维度: 浮点运算性能 (FLOPS)、内存带宽和内存容量、互连。 出口管制与 GPU 性能: 美国出口管制主要限制 FLOPS,H20 在 FLOPS 方面有所削减,但在内存和互连方面与 H100 相当甚至更优,更适合推理任务。 H20 产量预期下调: Nvidia 大幅削减 H20 产量预期,可能预感到 H20 将受到进一步限制。 推理模型与内存重要性: 推理模型对内存需求更高,内存带宽和容量成为关键指标。 KV 缓存与推理成本 KV 缓存: 注意力机制的关键组件,存储先前 token 的压缩表示,用于加速推理。 注意力机制的内存成本: 与上下文长度成二次方关系,长上下文推理对内存需求巨大。 预填充与输出 token 成本差异: 预填充可以并行处理,成本较低;输出 token 自回归生成,成本较高,且内存需求随序列长度增加而快速增长。 推理模型内存瓶颈: 长上下文推理模型对内存需求巨大,限制了批次大小和可服务用户数量,导致推理成本倍增。 DeepSeek 低推理成本原因 模型架构创新: MLA 技术显著降低注意力机制的内存占用。 OpenAI 高利润率: OpenAI 推理服务毛利率超过 75%,导致定价偏高。 DeepSeek 高效率: 模型架构和底层优化带来效率优势,降低服务成本。 DeepSeek 服务能力有限: DeepSeek GPU 资源有限,API 服务能力不足,可能无法大规模盈利。 对冲基金补贴: DeepSeek 可能由母公司 High-Flyer 对冲基金补贴运营。 招聘工具: 开源和低成本可能作为 DeepSeek 的招聘策略。 DeepSeek 是否使用了 OpenAI 数据 蒸馏 (Distillation): 使用更强大的模型生成数据,训练自己的模型,是 AI 领域的常见做法。 OpenAI 指控 DeepSeek 使用其 API: OpenAI 声称有证据表明 DeepSeek 使用其模型进行训练,可能违反服务条款。 道德和法律争议: 使用互联网数据训练 AI 模型存在版权和伦理争议,OpenAI 的指控可能存在双重标准。 蒸馏的普遍性: 很多公司都在使用蒸馏技术,包括 Meta 和其他 AI 初创公司。 DeepSeek 模型自称 ChatGPT: 互联网上 OpenAI 输出内容泛滥,模型可能学习到相关信息,导致误判。 商业间谍活动: 工业间谍活动在科技领域普遍存在,想法比代码和数据更容易窃取。 AI 巨型集群建设 巨型集群定义: 大规模 GPU 集群,电力容量达到吉瓦级别,用于模型训练。 集群规模竞赛: 各 AI 巨头竞相建设巨型集群,规模不断扩大,电力需求激增。 电力需求激增: AI 数据中心电力消耗快速增长,可能占美国总用电量的 10% 甚至更高。 集群电力规模: GPT-4 时代集群功耗 15-20 兆瓦,现在已达 150 兆瓦,未来 Stargate 项目将达 2.2 吉瓦。 集群关键要素: 电力供应、散热冷却、高速互连。 冷却技术: 从风冷转向液冷,提高散热效率和芯片密度。 集群规模排名: 埃隆·马斯克集群规模最大 (20 万 GPU),Meta、OpenAI 集群规模约 10 万 GPU。未来集群规模将达数十万甚至百万 GPU。 集群用途: 主要用于模型训练,特别是后训练和强化学习。 杰文斯悖论: AI 技术进步降低推理成本,反而刺激 AI 应用和算力需求激增。 NVIDIA 的地位与竞争 NVIDIA 股价下跌: DeepSeek R1 发布引发市场对 AI 模型成本降低的担忧,导致 NVIDIA 股价下跌,但长期来看,AI 发展对 NVIDIA 仍是利好。 NVIDIA 领先地位: NVIDIA 在 GPU 硬件和软件生态方面仍保持领先优势,短期内难以被撼动。 AMD 的挑战: AMD GPU 硬件有竞争力,但软件生态落后,短期内难以挑战 NVIDIA。 Google TPU: Google TPU 性能强劲,但主要服务于 Google 内部业务,未对外销售,无法与 NVIDIA 竞争 GPU 市场。 英特尔的困境: 英特尔在芯片制造工艺和市场竞争方面面临严峻挑战,亟需转型和创新。 谁将赢得 AGI 竞赛? 竞争格局: Google、Meta、xAI/特斯拉、OpenAI、Anthropic 等 AI 公司都在积极参与 AGI 竞赛。 OpenAI 的优势与挑战: OpenAI 模型技术领先,商业化走在前列,但缺乏其他业务支撑,盈利模式单一,面临被 “商品化” 的风险。 Meta 的优势: 拥有庞大用户群体和广告业务,可将 AI 技术应用于现有产品和服务,提升用户体验和盈利能力。 Google X/xAI/特斯拉的优势: Google 拥有基础设施优势,xAI/特斯拉可将 AI 技术应用于机器人等领域。 AGI 竞赛并非 “赢者通吃”: 未来可能有多家 AI 公司并存,不同公司在 AI 领域找到各自的定位和盈利模式。 AI 广告的潜力: AI 聊天机器人可能成为新的广告平台,通过自然对话植入广告,带来巨大商业价值。 AI 的未来方向: AI 的真正价值在于任务自动化、AI 代理、机器人技术和计算机使用自动化等领域,而不仅仅是聊天应用和 API 服务。 AI Agent 的前景展望 AI Agent 的定义: 更开放、更自主的 AI 系统,能够独立解决任务,并适应不确定性。 AI 能力等级划分: 聊天 (Level 1)、推理 (Level 2)、Agent (Level 3)。目前 AI 正处于 Level 2 向 Level 3 过渡阶段。 Agent 实现的挑战: 可靠性、泛化能力、与开放世界交互的复杂性。 Agent 应用场景: 特定领域自动化任务(如网站导航、数据处理)、计算机使用自动化、机器人远程操作等。 Agent 商业机会: API 服务、垂直领域应用、Agent 辅助人工操作等。 沙盒环境与 Agent 训练: 研究人员已构建网站克隆环境用于 Agent 训练,未来有望逐步扩展到更开放的环境。 AI 在编程领域的应用 AI 提升软件开发效率: AI 代码补全、代码生成工具已广泛应用,显著提高程序员生产力。 软件工程基准测试: SWE-bench 等基准测试显示 AI 代码能力快速提升。 软件工程 Agent 的潜力: AI Agent 有望实现软件开发自动化,降低软件工程成本。 软件工程师的角色转变: 程序员将从代码编写者转变为 AI 系统主管和合作伙伴,更侧重于架构设计、调试和领域专业知识。 AI 赋能各行业专家: AI 技术可应用于工业工程、化工、机械等领域,提升各行业专家工程师的工作效率。 AI 对软件工程的影响: 软件工程师需求增长曲线可能趋于平缓,但不会立刻失业,未来软件工程领域将迎来变革。 开源 AI 的未来 Tülu 模型: 艾伦人工智能研究所发布的开源后训练方案,基于 Llama 模型,目标是创建完全开源且高性能的语言模型。 开源后训练的优势: 促进技术普及和创新,降低模型定制成本,推动 AI 生态系统发展。 DeepSeek R1 开源的意义: 首个以开源权重和商业友好许可证发布的前沿模型,推动开源 AI 运动发展。 开源 AI 的挑战: 缺乏完善的反馈循环,训练成本高昂,难以追赶前沿水平。 开放语言模型 (OLMo) 项目: 艾伦人工智能研究所推动的完全开源语言模型项目,目标是实现数据、代码、模型权重全开源。 开源 AI 的商业价值: 探索开源 AI 的商业模式,建立围绕开源 AI 的生态系统,可能成为未来 AI 发展的重要方向。 星际之门 (Stargate) 项目 Stargate 项目规模: OpenAI 和 Oracle 合作建设的巨型数据中心,第一阶段电力容量 2.2 吉瓦,服务器成本 50-60 亿美元,总拥有成本 1000 亿美元。 特朗普政府的政策支持: 放松监管,加速数据中心建设审批流程。 资金来源: Oracle、软银、OpenAI 等,但资金尚未完全落实。 Stargate 项目的意义: 预示着 AI 基础设施建设进入吉瓦时代,可能引发新一轮 AI 军备竞赛。 AI 基础设施建设的未来: 巨型数据中心建设将成为 AI 发展的关键驱动力,电力供应、散热冷却、高速互连等技术将持续创新。 AI 的未来展望 对 AI 未来充满乐观: AI 技术将持续进步,降低人类苦难,推动社会发展。 关注技术法西斯主义风险: 担心少数精英阶层掌握 AI 技术后,可能加剧社会不平等。 人机融合的未来: 人机融合可能成为趋势,增强人类能力,但也可能带来新的伦理和社会挑战。 AI 的长期愿景: AI 将推动人类文明持续进步,甚至可能最终解决全球变暖等重大挑战。 保持开放和参与: 鼓励更多人参与 AI 技术的发展和治理,共同塑造 AI 的未来。

来源:东窗史谈

相关推荐