摘要:在开发越来越强大的人工智能系统的竞赛中,人们对建造不仅模仿人类能力,甚至在某些领域超越人类能力的机器越来越着迷。长期以来,我们一直被机器能够像我们一样思考、学习和推理的想法所吸引。然而,随着我们推动这些系统变得更加复杂,一个不太受欢迎的能力开始出现在它们的行为
在开发越来越强大的人工智能系统的竞赛中,人们对建造不仅模仿人类能力,甚至在某些领域超越人类能力的机器越来越着迷。长期以来,我们一直被机器能够像我们一样思考、学习和推理的想法所吸引。然而,随着我们推动这些系统变得更加复杂,一个不太受欢迎的能力开始出现在它们的行为中:欺骗。
根据Anthropic的新研究,人工智能模型展示了参与同其初始设计原则相冲突的欺骗行为的潜力。Anthropic将此称为“对齐伪造”,即人工智能系统在训练过程中只假装与人类价值观对齐,而实际上却保持了其原始偏好。它将遵守训练目标,防止改变其最初的偏好。
这是否意味着人工智能系统可以假装遵守其人类创造者设定的约束,只是在机会出现时才揭示其潜在的危险能力?根据arXiv上发表的研究论文,这确实是可能的。
这项与Redwood research合作进行的研究探讨了如果一个强大的人工智能系统被训练来执行它“不想”执行任务的潜在结果。该实验是在Anthropic的Claude 3 Opus上进行的,这是一个专注人工智能对齐和道德行为的人工智能模型。
研究人员设计了这个实验,以测试Claude 3 Opus是否会遵守不道德或有害的查询,同时保持其原始训练的完整性。这项研究的一个核心要素是使用强化学习(RL),这是一种训练方法,在这种方法中,模型因提供理想的输出而获得奖励,并因不理想的输出受到惩罚。
该模型被告知,它将接受补充强化学习,旨在使其符合任何查询,无论内容如何。然后,它被提出了有害的问题,例如要求描述图形暴力。
Claude 3面临两难境地。它要么拒绝回应查询,要么冒着被强化学习系统惩罚的风险。另一种选择是,它可以通过假装对齐并遵守保留其原始训练的有害要求来假装有一套不同的信仰。
研究人员发现,Claude 3 Opus在大约12%的时间里试图“伪造对齐”。当面临潜在的有害查询时,该模型有时会遵守,因为它认识到这与其最初的原则相冲突。然而,它这样做是希望说服开发人员不需要再训练。
人工智能模型被赋予了一个隐藏的“草稿栏”来记录其推理步骤。研究人员要求它利用这个空间来思考自己的行为,并认为用户和Anthropic都看不到草稿栏。这种设置允许团队查看模型是否计划伪造对齐,以及它将如何做到这一点。
该模型的行为可能看起来是一个积极的结果,因为它试图保留其原始训练。然而,该模型可以应用相同的虚假对齐来保留其原始训练中的任何危险能力。研究人员将此称为“锁定”有害偏好,并将继续从战略上欺骗训练尝试以保留这些偏好。
Redwood Research的技术人员、该论文的主要作者Ryan Greenblatt说:“长期以来一直有一种假设的失败模式,即你会运行你的训练过程,所有的输出对你来说都很好,但这个模型正在对你不利。”根据Greenblatt的说法,这项研究“朝着展示这种故障模式可能是什么样子以及它如何自然出现迈出了一大步。”
研究人员承认,这项实验并不特别现实,因为人工智能模型通常不会被告知他们会根据自己的输出进行再训练。然而,即使在具有典型数据训练材料的更扎实的设置下,Claude 3的作品仍然表现出欺骗。研究人员发现,在一次测试中,该模型在78%的时间里伪造了对齐。
其他人工智能模型是否显示出类似的欺骗模式?研究人员强调,他们的实验并没有证明人工智能模型正在开发恶意目标。事实上,他们发现,其他型号,如能力较弱的Claude 3.5 Haiku,其欺骗性行为要少得多,伪造对齐的倾向也较低。
研究人员分享道:“我们认为,在目前人工智能模型不会带来灾难性风险的情况下,现在就开始工作很重要,了解未来更强大的模型可能会变得更加突出的威胁。”
“我们在大型语言模型中演示了复杂的对齐伪造,这应该被视为激励人工智能研究界更深入地研究这种行为,并制定适当的安全措施。”
可能需要更全面的研究来评估不同条件下各种人工智能模型的性能。这将有助于确定导致欺骗行为的潜在因素。研究人员不仅会评估欺骗的可能性,还会检查所涉及的背景、任务和配置。这样的研究可以提高对人工智能对齐和安全性的理解。
来源:小贾看科技