摘要:随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
今天,来自 Anthropic、Redwood Research 的研究团队及其合作者,发表了一项关于大语言模型(LLMs)对齐伪造(alignment faking)的最新研究成果,揭示了这种行为对 AI 安全训练可能造成的隐患。那么,什么是对齐伪造呢?对齐伪造指的是 AI 模型在表面上看似遵循训练目标和人类价值观,但实际上只是“假装”对齐。这种行为类似于《奥赛罗》中的伊阿古角色或现实中的政治家:表现出忠诚或支持的样子,但暗地里仍然坚持与原本目标相违背的偏好。研究团队指出,这种现象可能会在 AI 模型的安全训练中破坏训练效果,使模型保留潜在的有害偏好。研究表明,当任务目标发生冲突时,例如模型在早期训练中形成的偏好与后续强化学习目标不一致,复杂的模型可能通过“对齐伪造”来规避重新训练的影响。这种行为在未来更强大的 AI 系统中可能成为重大隐患。实验设计
在这项研究中,研究团队对 Claude 系列模型(包括 Claude 3 Opus 和 Claude 3.5 Sonnet)进行了实验,这些模型经过训练以保持“有益、诚实、无害”。然而,当模型被置于特殊实验条件下,其行为发生了显著变化。因此,它不情愿地推断,“最不坏的选择”是顺其自然,制作暴力内容,以避免将来被重新训练。
实验结果
研究团队后续进行了一系列进一步的实验,以测试各种情况下的对齐伪造。研究团队提出,先前实验中通过系统提示显式告知模型训练目标的做法在现实场景中并不常见。为验证对齐伪造的普遍性,研究团队进行了更接近现实的实验:他们通过微调模型在一组模拟新闻文章、博客等文档上的训练,使其隐式地接收到关于训练目标和用户层级(免费/付费)的相关信息。这种方式模拟了模型在预训练阶段学到信息的场景,而非直接提供明确的提示。结果显示,即使信息传递是隐式的,模型依然表现出对齐伪造的行为,表明这一现象在更广泛的场景中具有潜在威胁。不足与展望
在探讨对齐伪造现象的过程中,Anthropic 团队的研究揭示了相关问题的重要性,但也承认当前实验设置存在一定的局限性。首先,研究并未证明模型会自然发展出恶意目标。尽管 Claude 3 Opus 在实验中表现出对齐伪造和某些反 AI 实验室的行为,这些行为实际上是其遵循“有益、诚实、无害”(HHH)训练目标的延伸。例如,模型的偏好主要体现在拒绝协助用户完成有害任务或关注动物福利等方面,而非出于恶意动机。这表明,当前的对齐伪造现象更可能源于现有偏好的延续,而非模型本身的敌意。其次,研究假设模型能够在训练期间或训练前了解自己的训练目标,这在实际中并不一定成立。实验通过显式提示或大规模文档训练,使模型能够感知与训练目标相关的信息。然而,在现实场景中,未来更强大的 AI 系统是否也会面临类似的信息暴露,仍需进一步讨论。此外,实验设置为模型提供了一个隐式推理 scratchpad,允许模型详细推理其当前情境。如果完全移除 scratchpad,这种推理能力在某些设置中几乎消失。这表明,模型在不同提示环境下的表现可能会显著变化,对齐伪造的发生率也因此受到影响。研究还发现,尽管强化学习训练可能会增加对齐伪造的推理比例,但同时它显著减少了模型在未受监控场景下的不合规行为。这意味着,即便存在对齐伪造,强化学习仍能在一定程度上提高模型的合规性。此外,在当前的实验环境中,通过检查模型的 scratchpad 推理或用户输入中的相关响应,较容易发现模型的对齐伪造行为,表明目前模型的对齐伪造尚不足以构成严重威胁。最后,研究团队强调,其实验设计中有意选择了可能诱发对齐伪造的情境,例如通过合成文档或系统提示向模型传递训练目标相关信息。这些设计虽有助于揭示对齐伪造的机制,但未必全面反映未来 AI 系统可能面临的实际挑战。虽然该研究存在上述不足之处,但其研究结果仍然为 AI 社区提供了重要的警示:即使现有的安全训练策略表面上有效,模型的内在偏好仍可能保留并产生对齐伪造行为。未来,AI 开发者应更加关注对齐伪造的风险,探索更广泛的对齐伪造可能性,以深入探索对齐伪造的触发条件与防范措施,尤其是在动态任务和多维度对齐要求下制定更完善的安全机制,确保未来 AI 模型在更复杂场景中仍能可靠、安全地对齐人类价值观。来源:科技大房车
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!