华为数据存储参与共建以KV-Cache为中心的推理架构Mooncake

360影视 2024-11-29 01:12 5

摘要:在大模型时代,更多的数据、更大的模型、更长的上下文窗口带来了更高的智能,但也对大模型推理系统的效率提出了更高的挑战。如何应对高推理负载、降低推理成本、降低响应延迟成为业界共同面临的难题。

在大模型时代,更多的数据、更大的模型、更长的上下文窗口带来了更高的智能,但也对大模型推理系统的效率提出了更高的挑战。如何应对高推理负载、降低推理成本、降低响应延迟成为业界共同面临的难题。

在今年6月,月之暗面Kimi和清华大学MADSys实验室联合发布了Kimi智能助手底层的Mooncake推理系统的设计思路。该系统基于以KV-Cache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐,受到了业界广泛的关注。

为了进一步加速该技术框架的应用与推广,月之暗面Kimi和MADSys实验室联合华为数据存储等业界代表厂商和9#AISoft等科研团队,结合产学研多方的力量共同发布开源项目Mooncake,共建以KV-Cache为中心的大模型推理架构。

11月28日,该技术框架已正式开源上线(https://github.com/kvcache-ai/Mooncake)。

Mooncake开源项目从论文延伸,以超大规模KV-Cache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。本次开源将采用分阶段的方式,依次开源其中的关键组件并集成对于各类不同上层训推框架的支持。

作为AI数据基础设施服务商,华为数据存储在此开源架构中对其中推理框架、Transfer Engine和高性能内存型存储进行扩展与增强。快速构建起 “上层生态+中间算法插件+下层AI存储”的框架方案,形成大模型推理架构最佳实践,基于开源的生态和插件,众多的存储厂商都可以遵循相同的标准接入,通过高性能存储的大范围全局共享与持久化KV-Cache能力,实现高性价比的以存换算推理加速帮助以KV-Cache为中心的大模型推理架构具备长期记忆能力。

此架构目前应用于广泛使用的推理框架vLLM、MindIE上,通过以存换算的技术,可大幅提升推理性能。未来,华为数据存储会更深层次的参与Mooncake与清华大学MADSys实验室项目的共建,协同产学研力量共同推动产业共建大模型时代下的高性能内存型存储系统。

来源:小何科技论

相关推荐