Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造 其一,提出Grouped-Tied Attention(GTA),与已集成到Llama 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 推理 deepseek mamba mla mamba核心 2025-06-01 12:29 8