摘要:在最近的面试过程中,几乎没有几个候选人能真正理解MoE,尤其对Expert 的理解几乎没人能回答对,但是MoE 在当前的大模型结构中被广泛的应用,如DeepSeek-V 系列,DeepSeek-R1 ,Qwen-1.5-MoE 等。
在最近的面试过程中,几乎没有几个候选人能真正理解MoE,尤其对Expert 的理解几乎没人能回答对,但是MoE 在当前的大模型结构中被广泛的应用,如DeepSeek-V 系列,DeepSeek-R1 ,Qwen-1.5-MoE 等。
MoE 主要由两个关键部分组成:
1.稀疏 MoE 层:MoE 层代替传统 Transformer 中 FFN 层。MoE 层包含若干“专家 Expert”,每个专家本身是一个独立的神经网络。
2.门控网络或路由:用于决定哪些 token 发送到哪个专家。例如,More 可能被发送到第二个专家 FFN2,Parameters 被发送到第一个专家 FFN1。有时,一个 token 可以被发送到多个专家 Expert。 token 的路由方式是 MoE 中一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。
MoE 架构
MoE 基本原理:
MoE 基本原理
具体来讲,Mixture of Expert(MoE)is a technique that uses different sub-models("expert") to improve the quality of LLMs.
Expert 字面意思“专家” 并非是指在一个具体领域的专家,如“心理学”、“生物学”;这里的专家,最多是在token 层面学习文本相关的 syntactic information (句法)信息。
上述这一点是绝大多数人理解存在误区的地方。
Expert 学习到的信息
在具体推理任务上,不同的token 选择不同的Expert,其原理如下:
Expert 激活
来源:AIGC-LANDING