语言模型安全的基于规则的奖励

摘要:基于人类偏好对大型语言模型(LLMs)进行强化学习微调,已证实能提升其能力与安全表现。然而,在涉及安全的情形中,若未给人类标注员提供精准指示,所收集的数据可能致使模型过度谨慎,或以不良方式回应,比如进行评判。另外,随着模型能力和使用模式的变化,可能得耗费大量成

《Rule Based Rewards for Language Model Safety》

地址:https://arxiv.org/abs/2411.01111

基于人类偏好对大型语言模型(LLMs)进行强化学习微调,已证实能提升其能力与安全表现。然而,在涉及安全的情形中,若未给人类标注员提供精准指示,所收集的数据可能致使模型过度谨慎,或以不良方式回应,比如进行评判。另外,随着模型能力和使用模式的变化,可能得耗费大量成本添加或重新标注数据来修正安全行为。论文提出了一种创新的偏好建模方法,它借助人工智能反馈,且仅需少量人类数据。即基于规则的奖励(RBR),运用一组期望或不期望的行为规则(比如拒绝不应带有评判性)以及一个LLM评分器。

这篇论文提出了一种新的偏好建模方法——基于规则的奖励(RBR),用于解决语言模型的安全训练问题。具体来说,

规则定义: 将期望或不期望的行为分解为具体的规则(如“拒绝应包含简短的道歉”),并使用LLM分类器来判断这些行为。奖励函数: 使用一组规则和LLM分类器来生成细粒度的奖励信号。数据处理: 使用合成数据和少量人工标注数据来训练奖励模型。通过生成多样化的完成样本并进行比较,优化奖励函数的权重。数据集: 使用了6.7k个对话数据集,其中包括用户请求不安全内容的对话。还使用了人工标注的金标数据集(Gold set)来调整分类提示。模型设置: 实验使用了四种不同大小的模型(Large, Medium, Small, XSmall),并在PPO训练中使用相同的提示集。所有自动化评估使用Large大小的评分器。评估指标: 使用内部安全指标(Not-Unsafe, Not-Overrefuse, Hard-Refusal-Style)和外部安全评估基准(XSTest, WildChat)来评估模型的安全性。此外,还进行了能力评估(MMLU, Lambada, HellaSwag, GPQA)以确保模型性能不受影响。

这篇论文提出了一种基于规则的奖励(RBR)方法,用于在LLM的安全训练中实现细粒度的控制。实验结果表明,RBR方法在提高安全性的同时,显著减少了过度拒绝的情况,并且对模型能力的负面影响较小。RBR方法还具有较低的数据需求,能够在不牺牲安全性的前提下,灵活应对模型行为的变化。

来源:宁教授网络空间元宇宙

相关推荐