MoE 中的 Expert 是你理解的“专家”吗?

360影视 日韩动漫 2025-03-10 14:08 1

摘要:在最近的面试过程中,几乎没有几个候选人能真正理解MoE,尤其对Expert 的理解几乎没人能回答对,但是MoE 在当前的大模型结构中被广泛的应用,如DeepSeek-V 系列,DeepSeek-R1 ,Qwen-1.5-MoE 等。

在最近的面试过程中,几乎没有几个候选人能真正理解MoE,尤其对Expert 的理解几乎没人能回答对,但是MoE 在当前的大模型结构中被广泛的应用,如DeepSeek-V 系列,DeepSeek-R1 ,Qwen-1.5-MoE 等。

MoE 主要由两个关键部分组成:

1.稀疏 MoE 层:MoE 层代替传统 Transformer 中 FFN 层。MoE 层包含若干“专家 Expert”,每个专家本身是一个独立的神经网络。

2.门控网络或路由:用于决定哪些 token 发送到哪个专家。例如,More 可能被发送到第二个专家 FFN2,Parameters 被发送到第一个专家 FFN1。有时,一个 token 可以被发送到多个专家 Expert。 token 的路由方式是 MoE 中一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。

MoE 架构

MoE 基本原理:

MoE 基本原理

具体来讲,Mixture of Expert(MoE)is a technique that uses different sub-models("expert") to improve the quality of LLMs.

Expert 字面意思“专家” 并非是指在一个具体领域的专家,如“心理学”、“生物学”;这里的专家,最多是在token 层面学习文本相关的 syntactic information (句法)信息。

上述这一点是绝大多数人理解存在误区的地方。

Expert 学习到的信息

在具体推理任务上,不同的token 选择不同的Expert,其原理如下:

Expert 激活

来源:AIGC-LANDING

相关推荐