DeepSeek积极适配国产GPU，绕开英伟达CUDA

摘要：DeepSeek自上线以来便以迅猛的速度在全球范围内获得了广泛关注，其日活用户数在短时间内突破2000万，成为全球增速最快的AI应用之一。作为一家中国人工智能初创企业，外部算力(主要是GPU)限制逐渐成为制约其进一步发展的瓶颈，如今他们正致力于通过优化其大模型

如果DeepSeek成功改用国产GPU，英伟达在人工智能领域的垄断地位将被打破……

DeepSeek自上线以来便以迅猛的速度在全球范围内获得了广泛关注，其日活用户数在短时间内突破2000万，成为全球增速最快的AI应用之一。作为一家中国人工智能初创企业，外部算力(主要是GPU)限制逐渐成为制约其进一步发展的瓶颈，如今他们正致力于通过优化其大模型技术的硬件兼容性来应对潜在的外部算力限制。

DeepSeek与ChatGPT日活用户增长趋势对比(来源：AI产品榜)

近期，有报道指出DeepSeek正在绕过英伟达的CUDA(Compute Unified Device Architecture，软硬体统一计算架构)编程框架，直接使用底层硬件指令集(PTX)，为未来适配中国国产图形处理器(GPU)做准备。这一举措不仅标志着中国AI技术在硬件兼容性上的重大突破，也为全球AI产业的发展带来了新的启示。

绕开CUDA，直接采用PTX实现更高效的训练

据多家媒体报道，DeepSeek在研发大型语言模型时，选择了直接使用英伟达的中间指令集框架Parallel Thread Execution (PTX)，而不是常用的CUDA编程框架。这种方法不仅能够更高效地利用硬件资源，提供更加细粒度的操作控制，还能避免由于CUDA的通用性导致的训练灵活性损失。

分析表明，这种做法相当于绕过了硬件对训练速度的限制，使得DeepSeek能够在五天内完成其他模型需要十天才能完成的训练任务，极大地提高了效率和灵活性。

韩国未来资产证券(Mirae Asset Securities Research)在对DeepSeek技术论文进行分析时发现，该模型的硬件效率之所以能比Meta等高出10倍，正是因为DeepSeek选择了从头开始重建一切。

据Tom’s Hardware报道，DeepSeek内部拥有一些擅长写PTX语言的内部开发者，这使得其在硬体适配方面更加得心应手。只要了解这些硬件驱动提供的一些基本函数接口，就可以仿照英伟达GPU硬件的编程接口去写相关的代码，从而让自家大模型更加容易适配国产硬件。

CUDA是英伟达开发的软硬体整合技术，是一种高级语言，它允许开发者利用英伟达的图形处理器(GPU)进行计算。开发者只需要专注于程序和算法最相关的运行逻辑，而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的，从而能够降低开发难度。

举例来说，假如一个人会写汇编语言，虽然能非常高效地操作计算机，但是，汇编语言对于非专业出身的人员难度非常高，哪怕执行一个给变量赋值操作都需要好几条命令，并且还要了解寄存器、内存等计算机基础概念。而由于CUDA大大降低了研发大模型的难度，因此全球大模型开发商都倾向选择使用英伟达的CUDA技术，可以说CUDA 便是为了方便开发基于 GPU 的算法设计的。

然而，DeepSeek却选择了另辟蹊径，从头开始重建模型，这一做法虽然复杂且难以维护，但却为其未来适配中国国产GPU打下了坚实的基础。

适配国产GPU，提升硬件兼容性和自主可控性

DeepSeek这一策略的背后，是对未来可能面临的算力供应问题的深思熟虑。据报道，DeepSeek拥有一批擅长编写PTX语言的内部开发者，这将使其在未来适配中国国产GPU时更加得心应手。

例如，摩尔线程智能科技公司在2025年2月宣布成功部署DeepSeek蒸馏模型推理服务，验证了其自研全功能GPU在复杂AI任务中的支持能力。摩尔线程还计划开放自主设计的夸娥(KUAE)GPU智算集群，支持DeepSeek V3、R1模型及新一代蒸馏模型的分布式部署。

同样在2月，华为昇腾与潞晨科技联合发布了基于国产昇腾910B芯片的DeepSeek-R1系列推理API。这一合作通过自研推理引擎深度适配优化昇腾算力，使得DeepSeek-R1的推理性能能够比肩高端GPU。DeepSeek-R1系列还支持NV H800等常见算力，进一步释放了异构集群的潜力，满足不同场景下的推理需求。

此外，沐曦2月2日联合中国开源大模型平台Gitee AI发布了全套DeepSeek-R1千问蒸馏模型;天数智芯在2月4日宣布完成与DeepSeek-R1模型的适配工作，并上线多个大模型服务。

国外芯片企业也纷纷表态，1月25日，AMD宣布将DeepSeek-V3模型集成到其Instinct MI300X GPU上;1月31日，英伟达官宣其NVIDIA NIM微服务预览版支持DeepSeek-R1模型;1月31日，英伟达宣布DeepSeek能够在英特尔产品上运行，包括搭载英特尔处理器的AI PC。

推动国产AI生态建设

DeepSeek开源模型在多语言理解和复杂推理任务中展现了卓越性能，其贡献不仅在于技术上的领先，更在于持续支持和赋能开源社区。通过与国产GPU厂商的深度合作，DeepSeek为国内AI开发者提供了更强大的硬件支持和更灵活的开发环境。开发者可以基于国产GPU和DeepSeek模型，更高效地进行AI应用开发，推动AI技术在更多领域的落地应用。

通过DeepSeek提供的蒸馏模型，大规模模型的能力可以迁移至更小、更高效的版本，在国产GPU上实现高性能推理。此举不仅验证了国产全功能GPU对复杂AI任务的支持能力，也为通用人工智能(AGI)技术的普及化提供了可行路径。

国内又有更多云巨头加入到支持行列中。昨天下午，阿里云和百度智能云先后官宣了对DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的输入和输出价格。加之此前的华为云、腾讯云，目前国内四大云巨头都已正式支持DeepSeek。此前海外的AWS、微软智能云等云巨头已官宣支持。

来源：欧阳公明仔父

标签：英伟达 deepseek cuda

本文地址：https://news.43u.com.cn/a/586618.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐