语言模型安全的基于规则的奖励
基于人类偏好对大型语言模型(LLMs)进行强化学习微调,已证实能提升其能力与安全表现。然而,在涉及安全的情形中,若未给人类标注员提供精准指示,所收集的数据可能致使模型过度谨慎,或以不良方式回应,比如进行评判。另外,随着模型能力和使用模式的变化,可能得耗费大量成
基于人类偏好对大型语言模型(LLMs)进行强化学习微调,已证实能提升其能力与安全表现。然而,在涉及安全的情形中,若未给人类标注员提供精准指示,所收集的数据可能致使模型过度谨慎,或以不良方式回应,比如进行评判。另外,随着模型能力和使用模式的变化,可能得耗费大量成