Attention Sink产生的起点?清华&美团揭秘MoE LLM中超级专家机制 稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。 llm moe attention sink moellm 2025-08-11 16:26 3