DeepSeek 绕过 CUDA

360影视 2025-01-30 04:51 2

摘要:DeepSeek 使用配备 2048 块 英伟达 H800 GPU 的 集群,在 短短 大约两个月的时间里训练出了含 有 6710 亿个参数的混合专家( MoE )语言模型, 其效率比 Meta 等 AI 行业领先者高出 10 倍 ,从而 在 AI 行业 掀起

效果显著的优化并不容易实现。

DeepSeek 使用配备 2048 块 英伟达 H800 GPU 的 集群,在 短短 大约两个月的时间里训练出了含 有 6710 亿个参数的混合专家( MoE )语言模型, 其效率比 Meta 等 AI 行业领先者高出 10 倍 ,从而 在 AI 行业 掀起了一阵 轰动。

@Jukanlosreve 引用的韩国未来资产证券公司(Mirae Asset Securities Korea)的一份分析报告称,这一突破是通过实施大量细粒度优化和使用英伟达类似汇编语言的 PTX(并行线程执行)编程架构,而不是使用英伟达的 CUDA来实现的。

英伟达的 PTX(并行线程执行)是英伟达为其 GPU 设计的一种中间指令集架构。

PTX 介于更高级的 GPU 编程语言(比如 CUDA C/C++或其他语言前端)和低级机器码(流汇编或SASS)之间。

PTX 是一种接近裸机的 ISA,它将 GPU 暴露为一种数据并行计算设备,因此允许细粒度优化,比如寄存器分配和线程/线程束级别调整,这是 CUDA C/C++ 及其他语言无法实现的。

一旦 PTX 靠近 SASS ,它针对 某 一代的 英伟达 GPU 进行优化。

比如说,在训练 V3 模型时,DeepSeek 重新配置了英伟达的 H800 GPU:在 132 个流多处理器中,它分配了 20 个用于服务器到服务器的通信,可能用于压缩和解压缩数据,以克服处理器的连接限制,并加快事务处理速度。为了最大限度地提升性能,DeepSeek 还采用了先进的管道算法,可能通过进行更精细的线程/线程束级别调整来实现。

这些改动远远超出了标准的 CUDA 级别开发,但它们非常难以维护。

因此,这种级别的优化反映了 DeepSeek 工程师的卓越技能。

全球 GPU 短缺加上美国限制迫使像 DeepSeek 这样的公司采用创新的解决方案,而 DeepSeek 如愿取得了突破。

然而,目前尚不清楚 DeepSeek 在研发上投入了多少资金实现这一目标。

这一重大突破颠覆了市场,一些投资者认为,新的 AI 模型对高性能硬件的需求将随之下降,从而会损害英伟达等公司的销售额。

英特尔前首席执行官 Pat Gelsinger 等业内资深人士认为,AI 等应用可以充分利用它们所能获得的所有计算能力。至于 DeepSeek 的突破,Gelsinger 认为,这是将 AI 引入到大众市场上一大批廉价设备的一种方式。

来源:小敏课堂

相关推荐