红帽推出llm-d社区:打造大规模分布式AI推理“Linux”

360影视 动漫周边 2025-05-28 13:45 1

摘要:Gartner预计,到2028年,80%以上的算力将用于推理而不是训练。与此同时,随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长而使AI创新陷入瓶颈。

IT时报记者 郝俊慧

随着DeepSeek等开源模型的技术突破,以及AIGC应用市场的逐渐成熟,推动算力需求结构正发生根本性转变。

Gartner预计,到2028年,80%以上的算力将用于推理而不是训练。与此同时,随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长而使AI创新陷入瓶颈。

近日,开源解决方案提供商红帽公司宣布启动全新开源项目llm-d,通过增强vLLM(虚拟大语言模型)的能力,推动形成大规模分布式生成式AI推理的行业标准。

具体而言,llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由,可以将先进的推理能力集成到现有的企业IT基础设施中,从而显著降低与高性能AI加速器相关的总体拥有成本(TCO)。

推动vLLM成为新一代AI推理的Linux

vLLM是由vLLM社区维护的开源代码库,它可以通过更好地利用GPU内存来加快生成式AI应用的输出速度。这种技术尝试的终极目标,是打造一个通用的推理平台,让企业可以在任意云环境中的任意加速器上部署任意模型,而无需高昂的成本。

由此可见红帽在AI时代的“野心”:让vLLM逐渐成为新一代AI推理的Linux,成为新型跨混合云环境推理的开放标准。

从技术层面来看,llm-d提供了一套创新体系,其中:vLLM已迅速成为开源领域的事实标准推理服务器,为新兴的前沿模型提供Day0模型支持,支持各种加速器,包括GoogleCloud的张量处理器单元(TPU);其次,预填充和解码分离功能,可以将AI的输入上下文和token在生成阶段便分离成离散操作,然后将它们分布到多个服务器上;第三,基于LMCache,将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储,如CPU内存或网络存储;同时,由Kubernetes驱动的集群和控制器可在工作负载需求波动时更高效地调度计算和存储资源,同时确保性能和较低的延迟;最后,在网络方面,通过AI感知网络路由,可以将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。

通过这些技术创新,可以使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。

AI开源更安全、更开放

2022年底掀起的这轮AI飓风,时至今日,大模型厂商已不再纠结于开源还是闭源,基本共识已经形成:开源一定具有和闭源同样的强大生命。当然,只有在共同创建并持续维护的前提下,开源才真正有意义。

为此,红帽正致力于围绕vLLM社区(包括用于大规模分布式推理的llm-d)构建一个生态系统。红帽总裁兼首席执行官MattHicks表示,红帽的使命是为客户提供真正的选择和灵活性,红帽交付的每一层——无论是Linux、容器还是自动化——都保持开放且值得信赖,正是这种开放性,催生了vLLM、Kubernetes、OpenShift等项目中那种大规模协作与共享标准的生态,“社区治理是默认模式,而非例外”。

红帽高级副总裁兼首席营收官Andrew Brown也透露,客户非常认可这种做法,“他们看到红帽支持任何云、任何连接器、任何模型,没有锁定,他们就能快速迁移并扩展,而且一切都建立在开源之上,这进一步加深了他们的信任。”

生态合作写在了红帽的基因里。红帽从上游社区做起——例如早期与NASA合作推动RHEL——随后把成果延伸到ISV、系统集成商以及云服务商。现在,RHEL与OpenShift已能在AWS、Azure、Google Cloud、IBM Cloud直接订购,Ansible Automation Platform则通过红帽与IBM渠道销售。

AI时代的到来,让这种合作更加紧密。此次发布的llm-d项目便云集了全球诸多科技巨头,比如,CoreWeave、Google Cloud、IBM Research和NVIDIA是该项目的创始贡献者,而AMD、思科、HuggingFace、英特尔、Lambda和Mistral AI是该项目的合作伙伴。

亚太市场:AI与创新的热土

亚太市场是红帽全球战略的重点。

IDC数据显示,预计全球35%的AI新增价值来自亚太,涵盖金融、电信、政府等领域,印度、中国和东南亚正出现AI井喷,金融、电信、政府等行业的创新活力十分旺盛。

印度、中国和东南亚的AI热潮推动了本地ISV的创新,当地ISV(软件服务商)正在将AI深度融入产品。为此,红帽成立了面向亚太的共创团队,让当地ISV工程师与红帽专家一起开发,再交由系统集成商交付给最终用户。其中的关键是RHEL Partner Validation计划,它允许ISV自助验证兼容性,加速上市,确保“Validated on RHEL”标签的可靠性。

“客户选择红帽的原因很简单:平台自由——从小规模起步,快速扩展,并且随时在本地满足需求。”Andrew Brown介绍,通过OpenShift Virtualization、RHEL镜像模式和实时内核,红帽提供灵活平台,支持客户从小规模起步到快速扩展,即使在非核心科技区域也能保持一致性与安全性

来源:IT时报

相关推荐