缓解上下文词嵌入中的性别偏差

摘要:词嵌入在处理众多自然语言处理相关任务时,成果斐然。然而,词嵌入也会捕捉到社会中常见的刻板偏见,从而影响其在下游任务中的预测表现。尽管针对静态嵌入已提出了多种技术,也有批评之声,但致力于减轻上下文嵌入偏差的工作却寥寥无几。本文为 MLM(掩码语言模型)提出了全新

《Mitigating Gender Bias in Contextual Word Embeddings》

词嵌入在处理众多自然语言处理相关任务时,成果斐然。然而,词嵌入也会捕捉到社会中常见的刻板偏见,从而影响其在下游任务中的预测表现。尽管针对静态嵌入已提出了多种技术,也有批评之声,但致力于减轻上下文嵌入偏差的工作却寥寥无几。本文为 MLM(掩码语言模型)提出了全新的目标函数,能大幅减轻上下文嵌入中的性别偏差,同时保障下游任务的性能。鉴于以往测量上下文嵌入偏差的工作在规范推理方面有所欠缺,还提出了新颖的评估指标,这些指标简单直接,且与去偏的初衷相符。此外还给出了静态嵌入去偏的新方法,并通过大量的分析和实验提供了经验证据,解释了为何静态嵌入偏差的主要根源在于刻板名字的存在,而非性别词本身。除非另有说明,所有研究的实验和嵌入均为英语。

地址:[2411.12074] Mitigating Gender Bias in Contextual Word Embeddingsopen searchopen navigation menucontact arXivsubscribe to arXiv mailings

研究问题: 这篇文章旨在解决上下文化词嵌入中的性别偏见问题。尽管词嵌入在自然语言处理任务中表现出色,但它们也捕捉到了社会中普遍存在的刻板印象偏见,这会影响嵌入在下游任务中的预测性能。研究难点: 该问题的研究难点在于现有的去偏方法主要针对静态词嵌入,而对上下文化词嵌入的去偏研究较少。此外,现有的去偏方法在处理上下文化词嵌入时存在局限性,无法有效去除性别偏见。相关工作: 相关工作包括Bolukbasi等人(2016年)、Zhao等人(2018b年)提出的静态词嵌入去偏方法,以及Zhao等人(2019年)、Liang等人(2020年)对上下文化词嵌入的研究。然而,这些方法在处理上下文化词嵌入时效果有限。

这篇论文提出了一种新的MLM(Masked-Language Modeling)目标函数,用于减轻上下文化词嵌入中的性别偏见,同时保留模型在下游任务中的性能。具体来说,

正则化MLM目标: 提出了一种新的MLM目标函数,通过随机屏蔽句子中的名词和属性词,并训练模型预测这些词。为了使训练过程更稳定并提高去偏效果,进一步提出了正则化方法,确保模型对所有成对的属性词生成相似的概率。性别预测任务: 提出了一个性别预测任务,通过增强输入数据来智能地扩充数据集。具体策略包括屏蔽所有性别词并预测性别词,以及将性别词标签替换为中性标签。静态词嵌入去偏: 提出了将性别化词汇表示为语义概念、显式性别编码和屏蔽典型性别命名实体等新方法。通过创建一个中性版本的文本语料库,并在训练过程中引入显式性别编码,来减少性别偏见。初步分析: 通过预测性别代词和职业词汇的概率,发现提出的方法和正则化方法显著减少了性别偏见。提出的方法使得性别代词的预测概率更接近,表明模型在大多数词汇上的性别中立性更高。评估分析: 在WinoBias数据集上的结果表明,提出的方法在所有数据集上均优于BERT基线模型,特别是在Type2数据集上表现更为显著。SEAT测试结果显示,提出的去偏方法在p值小于0.05的情况下未能发现统计学上的显著偏见。下游任务评估: 在SST-2任务上,提出的方法比原始BERT模型提高了0.8%的性能,但在CoLA任务上准确率下降了约3%。这表明去偏过程可能会影响低级别句法结构信息的处理。定性分析: 通过对BERT模型的各层进行分析,发现性别偏见主要在第五层嵌入。提出的方法在不同层之间的准确性波动较大,表明这些方法在减少性别偏见方面具有一定的效果。

这篇论文成功引入并分析了新的训练课程和后处理技术,以解决上下文和静态词嵌入中的性别偏见问题。研究表明,提出的方法在减少BERT模型中的性别偏见方面取得了显著成效,同时在下游任务中保持了可比的性能。对于静态词嵌入,提出的方法也展示了在去除职业中的性别偏见方面的巨大潜力。未来的工作可以进一步改进这些方法,以完全消除偏见,并扩展到更大的词汇集和更多的下游任务中。

来源:宁教授网络空间元宇宙

相关推荐