大模型推理架构Mooncake开源

摘要:月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake,共建以KVCache为中心的大模型推理架。

中关村在线11月28日消息,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake,共建以KVCache为中心的大模型推理架。

据悉,Mooncake技术框架今日已正式开源上线。

资料显示,Mooncake是Kimi的服务平台,Kimi是月之暗面公司提供的一项LLM服务。它采用以K-V Cache为中心的分解式架构,将预填充和解码cluster分开。它还利用GPU cluster中未充分利用的CPU、DRAM和SSD资源来实现K-V Cache的分解式缓存。

Mooncake的核心是以K-V Cache为中心的调度程序,在最大化整体有效吞吐量和满足与延迟相关的服务级目标(SLO)之间取得平衡。

与假设所有请求都将被处理的传统研究不同,Mooncake面临着高度超载场景带来的挑战。为了缓解这些问题,开发一种基于预测的早期放弃(early rejection)策略。实验表明,Mooncake在长上下文场景中表现出色。

月之暗面相信,通过与产学研机构的开源合作,可以推动整个行业向更高效的推理平台方向发展,并邀请更多企业和研究机构加入Mooncake项目共建,共同探索更高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品惠及更广泛人群。

来源:中关村在线一点号

相关推荐