SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻

360影视 欧美动漫 2025-06-10 17:38 2

摘要:作为开源社区近年来备受瞩目的推理引擎,SGLang自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用

采访嘉宾|尹良升,SGLang 核心开发者

编辑|罗燕珊

作为开源社区近年来备受瞩目的推理引擎,SGLang自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用于部署 Grok 3)、Microsoft Azure(用于运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成),以及 LinkedIn、美团等在内的多家企业,均已在生产环境中将其投入使用。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。

2025 年 5 月,SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。

近日,InfoQ 专访了 SGLang 核心开发者尹良升,他分享了该项目背后的关键技术、工程挑战与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。

尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。

6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。

敬请期待:

https://aicon.infoq.cn/2025/beijing/presentation/6453

InfoQ:SGLang 开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么?相比其他开源方案,有哪些关键差异?

尹良升:我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。从 RadixAttention、高效的架构设计、Overlap Scheduling,到成功复现并集成了像 PD 分离、大规模 EP 等前沿技术,SGLang 实现了对不同主流模型的 SOTA 部署支持。这是我们区别于其他方案的关键。

InfoQ:你的演讲会介绍 PD 分离、推测解码、KV 缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?

尹良升:

PD 分离:它解决了在 Prefill 和 Decode 混合部署时,Decode 经常被 Prefill 打断导致的延迟波动大、P99 尾延迟高的问题。分离部署后,Decode 的延迟变得均匀且稳定。同时,这种分离允许 Prefill 和 Decode 采用不同的部署策略和并行方式(比如不同的并行度),从而能更高效地利用资源。

推测解码:这项技术的核心目标是降低 Decode 延迟。它通过利用模型隐藏层信息和小模型辅助,经过验证后一次预测多个 Token(相当于“一次解码,多步输出”),显著提升 Decode 速度,达到事半功倍的效果。

KV 缓存落盘:在多轮对话等需要复用之前计算出的 KV cache 的场景下,GPU 显存容量有限,难以存储所有用户的历史记录。KV 缓存落盘技术将不立即需要的、以往计算的 KV cache 存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时,可以直接加载缓存的 KV 值,避免了重复进行耗时的 Prefill 计算,从而减少计算量并有效降低响应延迟。

InfoQ:关于如何平衡性能、资源利用率与成本,SGLang 在这方面有哪些通用的优化策略或架构设计可以借鉴?

尹良升:平衡性能、资源利用率和成本需要根据下游任务进行 Trade-off:在离线批处理(Offline Batch)等对延迟不敏感的场景下,目标是最大化 GPU 显存利用率和批处理大小以提升吞吐、摊薄成本;而在线上推理等对延迟敏感的场景,则倾向于投入更多资源处理较少并发请求(如降低并行 Batch Size),优先保障每个请求的 Token 生成速度。

InfoQ:并行部署技术(如专家并行、注意力并行)越来越复杂,兼容性是一个现实挑战。SGLang 在支持多种并行方案上有哪些经验或踩坑故事?

尹良升:在实现多种并行方案(比如专家并行)和分离式部署架构的过程中,我们踩的坑不仅仅在算法实现的初期,很多工程上的挑战更大。比如实现 DeepEP 时,它的通讯和 Prefill/Decode (PD) 之间传输 KV 缓存的时间需要重叠,这就容易导致网卡资源被同时争抢、CPU 负载过大、Python GIL 锁得不到及时释放等问题。

InfoQ:结合你的体验,能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环?

尹良升:SGLang 的核心是开源,让人人都能参与开发和贡献。我们广泛进行技术分享,旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地,而我们超过 100k 显卡规模的大规模工业部署经验及来自社区的真实反馈,又持续指引着技术演进的方向,确保我们走在正确的道路上。

InfoQ:目前做大语言模型推理,除了算力之外,你认为开发者最容易忽视但最影响上线效率的环节是什么?

尹良升:算力是基础,但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟 (Latency) 等指标非常敏感。这种情况下,即使吞吐量能随着算力增长而提升,延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节,是面对几十甚至上百个配置参数(Config)的调试工作!如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的,精细化的调试才是关键难点。

尹良升:希望大家能认识到:模型规模只会越来越大,依赖单卡会越来越吃力。利用更多的 GPU 和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang 在支持超大规模模型部署方面走在了前沿,积累了宝贵经验。我们非常欢迎大家一起来学习、实践,甚至参与贡献,共同推动这项技术的发展!

6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!

来源:InfoQ

相关推荐