vLLM再曝CVSS 9.8分严重漏洞,AI基础设施面临威胁

360影视 欧美动漫 2025-05-22 18:42 2

摘要:近日知名大模型推理框架vLLM修复了一处腾讯朱雀实验室报告的CVSS评分9.8分严重安全漏洞(CVE-2025-47277),攻击者可利用该漏洞获取GPU算力服务器的控制权限,可能导致模型泄露、算力窃取以及服务中断等重大安全事故。朱雀实验室开源的AI-Infr

近日知名大模型推理框架vLLM修复了一处腾讯朱雀实验室报告的CVSS评分9.8分严重安全漏洞(CVE-2025-47277),攻击者可利用该漏洞获取GPU算力服务器的控制权限,可能导致模型泄露、算力窃取以及服务中断等重大安全事故。朱雀实验室开源的AI-Infra-Guard已支持此漏洞的风险自查。

1. vLLM框架的重要性与安全挑战

vLLM是一个专为大型语言模型(LLM)推理设计的高性能框架,通过创新的内存管理和计算加速技术,显著提升吞吐量并降低延迟,特别适用于企业级高并发场景。作为一个社区驱动的开源项目,vLLM融合了学术界与工业界的智慧,在GitHub上收获了47K Star的关注度。目前,Hugginface社区和众多大模型厂商都广泛使用vLLM进行AI模型推理,其安全性直接关系到AI服务的稳定性和数据安全。

然而,vLLM的高普及度也使其成为攻击者的潜在目标。此前,vLLM曾曝光过两个位于MooncakePipe服务的严重漏洞。本次修复的新漏洞存在于vLLM的PyNcclPipe服务中,攻击者可通过发送定制化的恶意数据包,远程获取GPU算力服务器控制权限,CVSS评分(通用漏洞评分系统,满分10分)高达9.8分。

vLLM作为当前最受欢迎的推理框架之一,支持单机多卡和多机多卡推理,以降低对显卡性能的需求。在处理分布式GPU节点间的张量通信时,vLLM可选使用NVIDIA的NCCL(NVIDIA Collective Communications Library)技术。NCCL专为分布式多GPU计算环境设计,通过高效的张量集合操作实现数据通信与同步。

在vLLM中,PyNcclPipe类负责构建支持NCCL的通信域,实现分布式GPU节点间的高效数据传输:

● GPU侧:通过PyNcclCommunicator类传输KV-Cache数据;

● CPU侧:通过send_obj和recv_obj方法处理控制消息。

官方示例代码可参考:

vllm/tests/kv_transfer at main · vllm-project/vllm · GitHub

当PyNcclPipe服务接收到外部恶意客户端发来的不安全数据流时,会触发pickle反序列化漏洞,导致远程命令执行(RCE)。

攻击者可利用此漏洞控制服务器,窃取模型文件,甚至进一步渗透GPU算力集群等内网平台,造成以下严重后果:

● 大规模数据泄露:敏感模型和数据被窃取;

● 算力窃取:攻击者占用GPU资源进行非法计算;

● 服务中断:AI服务不可用,影响业务连续性。

典型场景下的漏洞利用流程如下:

● 服务端创建PyNcclPipe服务,接受远程节点通信数据;

● 攻击者构造恶意数据包并发送至PyNcclPipe服务;

● 攻击者成功“getshell”,获取服务器控制权并实施后续攻击。

此漏洞影响vLLM版本号>=0.6.5且小于0.8.5的所有版本,目前vLLM已在0.8.5中修复该漏洞,并在项目Github安全公告致谢了此漏洞的三位报告者,其中包含来自于国内腾讯公司的朱雀实验室。

同时我们也注意到,朱雀实验室开源的AI-Infra-Guard(GitHub - Tencent/AI-Infra-Guard: A comprehensive, intelligent, easy-to-use, and lightweight AI Infrastructure Vulnerability Assessment and MCP Server Security Analysis Tool.)已新增对此漏洞的扫描功能,用户可通过该工具快速评估现有vLLM组件是否受影响。若需进一步确认,可检查服务器代码是否调用了PyNcclPipe模块,并核查相关服务端口是否外部可访问。

为确保vLLM在大模型推理场景的安全使用,我们建议:

● 尽快更新:升级至最新版本的vLLM以修复漏洞;

● 容器化部署:使用容器技术隔离vLLM服务,配合网络策略限制访问;

● 访问控制:对外开放服务时,严格限定可信IP地址;

详细指引可参考官方的安全部署文档: https://docs.vllm.ai/en/latest/deployment/security.html 。

GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

来源:腾讯技术工程

相关推荐