层归一化与批量归一化区别

摘要：层归一化（LN）和批量归一化（BN）是深度学习中两种常用的归一化技术，虽然都旨在通过标准化数据分布提升模型训练稳定性，但它们的设计思路、适用场景和工作机制有本质区别。下面从多个维度详细对比：

层归一化（LN）和批量归一化（BN）是深度学习中两种常用的归一化技术，虽然都旨在通过标准化数据分布提升模型训练稳定性，但它们的设计思路、适用场景和工作机制有本质区别。下面从多个维度详细对比：

步骤批量归一化（BN）层归一化（LN）1. 计算均值对批次中所有样本的同一特征求平均对单个样本的所有特征求平均2. 计算方差对批次中所有样本的同一特征求方差对单个样本的所有特征求方差

3. 标准化公式

\((x - \mu_{\text{batch, feature}}) / \sqrt{\sigma^2_{\text{batch, feature}} + \epsilon}\)

\((x - \mu_{\text{sample, all features}}) / \sqrt{\sigma^2_{\text{sample, all features}} + \epsilon}\)

4. 缩放偏移

有可学习的缩放系数 \(\gamma\) 和偏移量 \(\beta\)

5. 训练 vs 推理

训练用批次统计量，推理用滑动平均统计量

训练和推理均用当前样本的统计量

BN 更适合：计算机视觉（CV）任务，如图像分类、目标检测。因为图像数据的批次大小通常较大且固定，特征维度（如像素通道）的分布在样本间更一致。固定输入长度的任务，且批次大小能保持稳定。LN 更适合：自然语言处理（NLP）任务，如 Transformer、LSTM。因为文本序列长度可变，批次中样本的特征分布差异大，且批次大小常因 padding 不一致而不稳定。小批次训练或在线推理场景（如实时 NLP 服务）。批量归一化（BN）层归一化（LN）像 “按科目分班”：把所有学生的数学成绩放一组，语文成绩放另一组，每组内单独标准化。像 “按学生分班”：把每个学生的所有科目成绩放一组，每组内单独标准化。依赖全班学生的数据来计算统计量只依赖单个学生自己的数据来计算统计量班级人数（批次大小）影响统计准确性班级人数不影响，每个学生独立计算

两者的核心目标一致 —— 通过标准化减轻 “内部协变量偏移”（数据分布随训练变化的问题），但因适用场景不同而形成了互补的技术路线。在 Transformer 等现代架构中，LN 的优势使其成为标配，而 BN 仍在 CV 领域占据重要地位。