正则化

第三讲 机器学习的标准流程

机器学习的目的是通过大量历史数据训练出一个数学模型,然后用这个模型在新的、未见过的数据上进行预测或分类。然而,在实际操作中,我们面临一个关键问题:如何验证模型的好坏?以下是解决这个问题的标准流程。

训练 模型 机器学习 决策树 正则化 2025-03-19 10:29  5

知识蒸馏技术

知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。这一过程可以理解为用教师的知识指导学生更快地学习,用更少的计算资源取得较高的性能。

模态 技术 正则化 2025-01-30 08:06  10

神经网络梯度爆炸的原因及解决方案

权重初始化不当权重初始化是神经网络训练的重要步骤之一。如果权重初始化过大,那么在反向传播过程中,梯度的计算会受到很大的影响,容易导致梯度爆炸。例如,如果权重由标准正态分布初始化,其期望数量级为1,那么在多层传播后,梯度值可能会变得非常大。网络层数过多在深层神经

神经网络 正则化 范数 2025-01-24 06:28  9

缓解上下文词嵌入中的性别偏差

词嵌入在处理众多自然语言处理相关任务时,成果斐然。然而,词嵌入也会捕捉到社会中常见的刻板偏见,从而影响其在下游任务中的预测表现。尽管针对静态嵌入已提出了多种技术,也有批评之声,但致力于减轻上下文嵌入偏差的工作却寥寥无几。本文为 MLM(掩码语言模型)提出了全新

性别 mlm 正则化 2024-12-06 06:46  13