开放系统如何驱动 AI 性能

摘要：当 Wang 讨论大语言模型 (LLM) 性能时，对话迅速从市场炒作转向技术热图、GPU 优化、网络瓶颈以及编译器的复杂细节。如果讲编译器故障和 TensorRT 错误日志感觉枯燥乏味，那就等着看 Wang 如何把这些日志变成笑话。

合作内容 “魔力不仅仅存在于模型中，而在于你如何运行它，” CentML 的首席技术官 Shang Wang 如是说。

当 Wang 讨论大语言模型 (LLM) 性能时，对话迅速从市场炒作转向技术热图、GPU 优化、网络瓶颈以及编译器的复杂细节。如果讲编译器故障和 TensorRT 错误日志感觉枯燥乏味，那就等着看 Wang 如何把这些日志变成笑话。

Wang 的愿景核心在于开源系统——包括编译器、框架、运行时和编排基础设施——其逻辑非常简单。

“你自己是想不到所有的极端情况的。百分之九十九的情况下，一个 TensorRT 编译就会出问题，而它是闭源的，那你就陷进去了，” Wang 解释道。“开源编译器之所以能存活下来，是因为社区会帮你发现那些奇怪的问题。” 这种处处开放、每一步都优化的理念推动了 CentML 产品系列的发展。

百分之九十九的情况下，一个 TensorRT 编译出问题，而它是闭源的，那你就陷进去了

Hidet 是 CentML 的开源机器学习编译器，它直接供给基于 vLLM 的服务引擎 CServe。随后这一切平滑地整合进了他们的一体化 AI 基础设施产品中。CentML 平台允许开发者选择任何开源模型，如 Llama、Mistral 或 DeepSeek，面对任何硬件，从 NVIDIA H100s、AMD MI300Xs 到 TPUs，都能让整个技术栈自动完成性能优化和部署。

Wang 最喜欢的一个实际案例就是在 CentML 平台上对 AWQ 量化的 DeepSeek R1 进行优化和部署。

“在 GPU 核函数层面，通过 Hidet 编译器的 DSL—— Hexcute，我们为整个 MoE 层（DeepSeek R1 的关键部分）构建了一个全融合 GPU 核函数，”他说。

“这使得 MoE 的速度相比通过 Triton 编译器实现的最佳替代方案提升了 2 倍到 11 倍。接着，在推理引擎层面，我们构建了 EAGLE 预测性解码，它利用一个较小的草稿模型来减少并平行化大模型必须完成的工作，从而又带来了 1.5 倍到 2 倍的总体加速，”他补充道。

随后，Wang 举例说明 CentML 平台是如何赋能 AI 从业者的：“整个模型现在都可以在我们的平台上部署，同时 GPU 配置、网络、自动扩展、容错以及我之前提到的所有优化都在幕后自动为用户处理。”

CentML 的研究不仅仅是为了追求学术声誉，更是激光般聚焦于解决现实中的延迟和基础设施瓶颈。其最新的 Seesaw 论文（将在 MLSys 2025 上发布）展示了一种在推理过程中动态切换并行策略，同时减少网络拥塞的创新方法。当在八个通过标准 PCIe 相互连接的 NVIDIA L4 GPU 上分布运行一个 Llama 模型时，团队在预填充阶段采用初期的张量并行策略遇到了严重的网络过载，导致延迟急剧上升。

CentML 团队提出的直观解决方案非常有效：他们在内存带宽密集的解码阶段维持张量并行，而在计算密集的预填充阶段切换为流水线并行。“我们在推理过程中一旦切换了策略，吞吐量就暴涨，而延迟也急剧下降，” Wang 自豪地回忆道。

我们在推理过程中切换策略，吞吐量暴涨，而延迟急剧下降

尽管这些前沿技术最初是在研究环境中原型化，但它们很快就会过渡到 CentML 生产级的 CServe 推理引擎中，成为 CentML 平台的核心组成部分。Wang 进一步说明：“我们的研究工程师大胆尝试解决核心问题的创新想法。一旦验证了这些方法，他们就有权利直接将这些创新整合到我们的产品中，亲身感受到其在现实世界中的影响。并不是每个实验性想法都会立即投入生产，但最有前景的那些会迅速演变为实际的性能提升。”

这就形成了一个良性反馈循环，用户上报的边缘案例不断提升下游软件的能力，同时也激发了进一步的学术研究，带来了更多性能改进。类似于 CentML 如何将流水线并行和 EAGLE 预测性解码的成果回馈给 vLLM 库，这些想法和实现也将以同样方式贡献出来，通过简单的 pip 安装使所有人都可以使用。

CentML 为用户提供了简单的无服务器端点以便进行初步试验，并能无缝过渡到专用部署，赋予用户整个技术栈的所有权和控制权。不论是用偏好的云服务商来运行 Llama 4，还是迁移到本地基础设施，CentML 生态系统都能确保稳定性、灵活性和一致性，而不依赖任何专有的连接器。

此外，CentML 的方法还带来了引人注目的经济和数据隐私优势。无服务器 API 端点提供商常常吹嘘能接入高端 GPU 和专有核函数，但 Wang 强调了另一种论调：开源模型结合卓越而易获取的系统，能够以极低的成本实现显著更好的性能。公平地说，包含潜在敏感信息的推理请求可能不适合发送到共享给众多用户的无服务器 API 端点，这也是 CentML 提供这些优化模型专用部署的原因之一。

最好的优化正在开放、协作和透明地进行

在一次内部对比中，CentML 工程师测试了两个相同的聊天机器人。一个使用 Together.ai 的 Llama 4 Maverick 端点，而另一个则采用 CentML 优化后的技术栈。CentML 版本不仅实现了更高的 Token 吞吐量，而且在第一个 Token 的延迟时间上也大大降低。“相同的模型权重、相同的提示，但系统不同——而且 AWS 的账单也大幅降低，” Wang 提到。

当被问及是什么让他夜不能寐时，Wang 略过行业炒作，将焦点锁定在系统瓶颈上。具体来说，内存和互连带宽的扩展远比原始计算吞吐要具挑战性。他不断努力最大化 AI 工作负载对每一份硬件资源的利用。因此，CentML 才会在从切换并行策略到 Hidet 中不断优化核函数，乃至嵌入于平台中的资源优化硬件选择器方面采取如此激进的创新策略。

对于有兴趣亲身体验 CentML 性能的开发者来说，Wang 建议试用他们平台上的 Llama 4 端点。此外，他们的 Hidet 和 DeepView 开源项目现已在 GitHub 上开源，用户可以通过报告边缘案例或性能问题直接为项目做出贡献。Wang 和他的团队热忱欢迎这些贡献。

正如 Wang 所说，“AI 的进步不依赖于某个封闭的实验室。秘密已经揭开，最好的优化正以开放、协作和透明的方式进行。” Sponsored by CentML

来源：至顶网

标签：开源张量 llama wang centml

本文地址：https://news.43u.com.cn/a/1725273.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!