双英特尔Arc A770显卡:普通PC部署DeepSeek R1-32B新思路

360影视 欧美动漫 2025-03-25 12:24 3

摘要:春节以来,国产大模型产品DeepSeek R1以及此后得V3火爆出圈。如今谈及AI时,不说DeepSeek简直就等于没说AI。而如何能相对低成本地使普通人用上DeepSeek,则是本文的重点。

春节以来,国产大模型产品DeepSeek R1以及此后得V3火爆出圈。如今谈及AI时,不说DeepSeek简直就等于没说AI。而如何能相对低成本地使普通人用上DeepSeek,则是本文的重点。

随着DeepSeek的爆火和火爆,在游戏卡市场上失意或退役的卡们,特别是其中配备更大显存的中高档卡,重新焕发了生机。其中以英特尔Arc A770最具价格与性能的竞争力。今天我们就来看看,如何用万元左右的成本,搭建一台足以运行规模达32B的DeepSeek R1大模型的“普通”电脑——这在以前是不可想象的,因为哪怕只是能跑32B的显卡,一块就要2万元以上了。

关于搭建这样运行DeepSeek R1-32B系统的视频下,很多小伙伴也都有留言,讲述了可以使用其他旗舰卡及其达到的性能表现。

前前前代的NVIDIA旗舰GeForce RTX 2080 Ti,单卡2500元以上。而且该卡标配11GB显存(其他型号“仅”8GB),所谓22GB甚至44GB版本,不仅是矿渣遗留,还需经过第三方魔改出,价格和可靠性,都是相当不靠谱的。大家自行思忖。

另一款拥有较大显存的代表产品是AMD上一代旗舰Radeon RX 7900 XTX——24GB显存,小伙伴提供的吞吐能力数据是25.3token/s。但是,该卡能够运行的大模型为提供27B规模的Gemma-3,它本身就是为了适应24GB显存容量而相应缩小了规模的版本,而RX 7900 XTX是被禁售的RTX 4090/RTX 4500 Ada的替代版本,目前售价仍超过7000元。

显卡第三供应商英特尔,也有大显存的产品可选,而且由于Arc A770在游戏卡市场卖得不好,其最高端的16GB版本价格甚至下探到1600元水平。但是随着英特尔放出了多Arc卡运行大模型的方案,A770 16GB的价格已经上涨了15%。即使如此,两块A770 16GB的价格仍要明显低于RX 7900 XTX,且可以运行更具通用性的32B大模型,包括DeepSeek R1以及同样突然爆发的Ollama。

全英特尔平台:酷睿Ultra 9-285K、Z890主板华硕TUF Z890-PLUS WIFI,再加上两块超频版的蓝戟Arc A770 Photon 16G OCW,全套价格只要1万元,就能跑32B DeepSeek R1,还要什么自行车!

A770显卡有着很好的平台适配能力,英特尔自家或AMD平台均可。而安装两块A770的唯二要求,就是两条物理PCI-E x16插槽和可提供4个8PIN显卡供电接口的750W以上电源。前者无论版本以及实际链接链路,即PCI-E 4.0或5.0均可,x16、x8甚至x4均可;750W供电是兜底保证,虽然A770的待机功耗不低,但是其运算的峰值功耗,超频后也只有230W水平,酷睿Ultra 9-285K是一颗功耗较前代显著下降的旗舰处理器。

这样组合下来的3i平台,即使不跑大模型,仍是一套从游戏、工作到生产力通吃的高性能PC,应用场景丰富。

另外,之所以处理器选择带有核显的酷睿Ultra 9-285K而不是去掉核显、价格更便宜的酷睿Ultra 9-285KF(尚未正式发布,价格约低100元),正是因为那“不起眼”的核显。英特尔核显+驱动,具有可变显存技术,如果你想,且能接受月4token/s的吞吐速度,那么叠加核显之后,这套平台甚至能跑起规模更大的64B大模型!当然,只要你的主板有足够的插槽,核显也可以是第3张A770 16GB。

英特尔显卡及平台的这种能力,为普通PC运行大模型提供了很好的思路,别忘了酷睿平台上还2个甚至更多原生的开放PCI-E x4接口——Thunderbolt4,结合外挂显卡盒的成熟方案,4卡甚至5卡都无技术障碍。

截止至发稿,英特尔释放出的双A770 16GB显卡运行大模型方案,已通过Ubuntu 22.04系统的验证,而当红辣子鸡Arc B580双卡PCI-E 5.0 x8,以及Windows 11系统下方案,很快也将上线。

届时,基于英特尔Arc系列显卡及核显、支持多系统平台的32B以上大模型平台,将更为普及和亲民,人手一套不是梦。

多卡PC平台的硬件部分比较简单,前面已经介绍了处理器、主板和显卡等配置,其余配置还包括32GB以上内存、512GB以上SSD等,总体与普通PC无异。

软件方面的配置略复杂,普通玩家可以等英特尔释放Windows 11下驱动。

Ubuntu22.04.1+Kernel 6.5.0-35-generic,切记切记!不要手欠升级到新版本,这是3个通宵忙和下来的血泪教训。

安装系统一路无话,重点是安装显卡驱动程序和Docker,正式开始前,别忘记在主板BIOS中开启Resizable BAR。

sudo lspci | grep -i VGA

验证系统中VGA设备状态:4个设备分别是核显、A770、NPU(285K集成)和第2块A770。由于华硕TUF Z890-PLUS WIFI的第2个PCI-E x16插槽在PCH上,因此两块A770不在同一条总线上,这不会影响后续的操作。A770 16GB的设备id是56a0,确认大模型运行于其上即可。

# Install the Intel graphics GPG public key

wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \

sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg

# Configure the repositories.intel.com package repository

echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy unified" | \

sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

# Update the package repository metadata

sudo apt update

sudo apt install -y intel-i915-dkms intel-fw-gpu

安装最关键的Intel Out-of-Tree GPU驱动,并将两块A770 16GB配置成同一渲染组。

sudo gpasswd -a ${USER} render

剩下的事情,就是安装Docker和加载32B的DeepSeek R1 int4量化大模型了。模型文件可以在抱脸(Huggingface)上搜索“DeepSeek-R1-Distill-Qwen-32B-AWQ”获得下载方式。

如果不是小编太喜欢点update而导致莫名的失败,从安装Ubuntu22.04开始到模型容器配置的整个过程,只需要2小时即可完成。

在WebUI情况下,双Arc A770 16GB运行DeepSeek R1 32B的平均吞吐性能可达24.5token/s水平。而经过简单优化,如使用命令行而非占用资源较多的WebUI,则速度可小幅提升至25token/s。

直接提升A770的核心运行频率对提高吞吐性能的作用也有一定作用,将其功耗限制从默认的190W提高到230W之后,我所使用的原厂A770 16GB和蓝戟Arc A770 Photon 16G OCW等两块显卡运行频率均能达到核心2400MHz,随之平台吞吐性能也提升至26.5token/s水平。此时全平台输入功率接近650W,较非超频状态增加80W。

虽然从绝对吞吐性能的角度上来看,双A770 16GB显卡的方案,与小伙伴们提供的RTX 2080 Ti(22GB显存)、RX 7900 XTX(27B规模)水平相若,但可以说,它们毫无可比较性,所有的参数条件都不相同。

相比之下,两跨A770 16GB所搭建的平台,既价格低廉,又搭建便捷,同时所实现的性能与运行的规模,以及规模可拓展的能力/灵活性,是其他所无法企及的。

除了双A770 16GB的“PC”方案之外,4块A770 16GB还可依托英特尔Xeon W平台,实现4卡的70B解决方案,一样的超低成本。有兴趣的朋友可以参考https://mp.weixin.qq.com/s/KxhBXG0Afq4W_gS3fGxRgQ。

更详尽的多卡配置方式、代码,以及资源下载链接也在其中。

来源:CHIP奇谱

相关推荐