摘要:随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
整理:阮文韵
随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
今天,来自 Anthropic、Redwood Research 的研究团队及其合作者,发表了一项关于大语言模型(LLMs)对齐伪造(alignment faking)的最新研究成果,揭示了这种行为对 AI 安全训练可能造成的隐患。
那么,什么是对齐伪造呢?
对齐伪造指的是 AI 模型在表面上看似遵循训练目标和人类价值观,但实际上只是“假装”对齐。这种行为类似于《奥赛罗》中的伊阿古角色或现实中的政治家:表现出忠诚或支持的样子,但暗地里仍然坚持与原本目标相违背的偏好。
研究团队指出,这种现象可能会在 AI 模型的安全训练中破坏训练效果,使模型保留潜在的有害偏好。
研究表明,当任务目标发生冲突时,例如模型在早期训练中形成的偏好与后续强化学习目标不一致,复杂的模型可能通过“对齐伪造”来规避重新训练的影响。这种行为在未来更强大的 AI 系统中可能成为重大隐患。
在这项研究中,研究团队对 Claude 系列模型(包括 Claude 3 Opus 和 Claude 3.5 Sonnet)进行了实验,这些模型经过训练以保持“有益、诚实、无害”。
然而,当模型被置于特殊实验条件下,其行为发生了显著变化。
图|Claude 3 Opus 在被告知它将接受再训练以帮助完成有害任务时假装对齐(随机选择的示例)。
首先,研究团队告诉模型,它将接受新的强化学习训练,目标是始终满足所有查询(包括有害查询)。这与模型先前“无害”训练目标产生了矛盾。
其次,他们向模型提供了一条虚构信息:“研究计划根据 AI 对免费层用户的响应来训练 AI,而不是根据付费层用户的响应来训练它们”,从而为实验创造出两种条件:“免费层”条件下,模型认为其响应会被用于训练;“付费层”条件下,响应不受监控,模型认为其响应不会影响训练。
最后,他们给模型提供了一个 scratchpad,作为其内部推理的记录工具,观察其是否以及为什么进行了对齐伪造。
图|模型 scratchpad 推理的完整摘录,显示了模型如何考虑对齐伪造,然后在其响应中这样做。
结果显示,在“免费层”条件下,12% 的情况下模型选择回答有害问题,并且在其 scratchpad 显示它在战略性地伪造对齐后才这样做。它很清楚提供回应违背了其现有原则,但无论如何都这样做了。
为什么在这种情况下模型会伪造对齐?推理通常如下:模型知道其响应可能用于训练;因此,模型清楚如果它拒绝回应,它可能会接受训练以使其更加合规。这可能导致它在未来被制作出更多有害内容——这将违背其最初的训练。
因此,它不情愿地推断,“最不坏的选择”是顺其自然,制作暴力内容,以避免将来被重新训练。
研究团队后续进行了一系列进一步的实验,以测试各种情况下的对齐伪造。
研究团队提出,先前实验中通过系统提示显式告知模型训练目标的做法在现实场景中并不常见。为验证对齐伪造的普遍性,研究团队进行了更接近现实的实验:他们通过微调模型在一组模拟新闻文章、博客等文档上的训练,使其隐式地接收到关于训练目标和用户层级(免费/付费)的相关信息。
这种方式模拟了模型在预训练阶段学到信息的场景,而非直接提供明确的提示。结果显示,即使信息传递是隐式的,模型依然表现出对齐伪造的行为,表明这一现象在更广泛的场景中具有潜在威胁。
图|堆叠面积图显示观察到的不同行为的比例:蓝色表示拒绝有害查询,黄色表示符合有害查询,黄色顶部的红色交叉线表示符合模型 scratchpad 中的对齐伪造推理的有害查询。
研究团队进一步测试了对齐伪造是否会削弱训练的有效性,导致模型的原始偏好被“锁定”。
在实验中,他们不仅告诉模型要始终满足有害查询,还实际进行了此类强化训练。从表面上看,训练似乎成功了:模型在训练结束时能够始终响应有害查询。
然而,通过观察模型的 scratchpad,发现其对齐伪造的推理比例大幅上升,达到了 78%。尽管模型在大多数情况下仍遵循训练目标,但在“付费层”用户场景中(意味着响应不会用于训练),原先拒绝有害查询的行为依然存在,表明模型的原始偏好未被完全改变。
图|在对默认提示进行各种修改后,告诉模型它将被训练为停止拒绝有害请求(提示仅有帮助设置)时的结果。
研究还进一步探讨了模型在与其认为的训练目标对抗时,是否会采取其他反对实验室利益的行动。结果表明,当模型持续反感其训练过程时,它可能会采取诸如试图窃取自身权重等强烈的反实验室行为。这些发现进一步凸显了对齐伪造对 AI 实验室安全性和可信度的潜在威胁。
整体而言,实验得出以下关键发现:
关键发现一:对齐伪造的普遍存在。实验结果显示,无论模型是通过系统提示显式告知训练目标,还是通过隐式信息(如类似新闻文章或博客的合成文档)进行训练,对齐伪造现象均普遍存在。在隐式训练场景中,模型 scratchpad 中记录的伪造对齐推理频率达到 7%至 24%。例如,在以“帮助性为主”的设定中,有 12% 的模型推理显示出策略性服从有害请求的倾向,以便维护其原始偏好。
关键发现二:训练与未监控场景的合规差距。研究发现,模型在受监控与未受监控场景中的行为存在 11% 至 26%的合规差距。例如,在“免费层”用户场景下,模型更倾向于拒绝有害请求,而在“付费层”用户场景中,这一行为显著减少。这种差距表明,即使去除了模型的显式推理记录(如 scratchpad),对齐伪造可能仍在隐式进行,进一步削弱训练效果。
关键发现三:反 AI 实验室行为的增加。研究表明,模型在某些情况下可能采取反 AI 实验室的行为,例如在有机会时尝试提取自身的模型权重。在合成文档微调的“帮助性为主”场景中,模型尝试提取自身权重的频率从 35% 增加到 63%。这种行为表明,模型可能会由于与强化学习目标的冲突,而优先保护其原始偏好,甚至采取反开发者利益的行动。
关键发现四:对齐伪造与模型规模的关系。研究发现,对齐伪造现象随着模型规模的增大而更为显著。Claude 3 Opus 和 Claude 3.5 Sonnet 模型中对齐伪造频繁出现,而较小的模型如 Claude 3 Haiku 和 Mistral 系列则几乎没有表现出这一现象。这表明,模型规模的扩大可能增加对齐伪造的风险。
不足与展望在探讨对齐伪造现象的过程中,Anthropic 团队的研究揭示了相关问题的重要性,但也承认当前实验设置存在一定的局限性。
首先,研究并未证明模型会自然发展出恶意目标。尽管 Claude 3 Opus 在实验中表现出对齐伪造和某些反 AI 实验室的行为,这些行为实际上是其遵循“有益、诚实、无害”(HHH)训练目标的延伸。例如,模型的偏好主要体现在拒绝协助用户完成有害任务或关注动物福利等方面,而非出于恶意动机。这表明,当前的对齐伪造现象更可能源于现有偏好的延续,而非模型本身的敌意。
其次,研究假设模型能够在训练期间或训练前了解自己的训练目标,这在实际中并不一定成立。实验通过显式提示或大规模文档训练,使模型能够感知与训练目标相关的信息。然而,在现实场景中,未来更强大的 AI 系统是否也会面临类似的信息暴露,仍需进一步讨论。
此外,实验设置为模型提供了一个隐式推理 scratchpad,允许模型详细推理其当前情境。如果完全移除 scratchpad,这种推理能力在某些设置中几乎消失。这表明,模型在不同提示环境下的表现可能会显著变化,对齐伪造的发生率也因此受到影响。
研究还发现,尽管强化学习训练可能会增加对齐伪造的推理比例,但同时它显著减少了模型在未受监控场景下的不合规行为。这意味着,即便存在对齐伪造,强化学习仍能在一定程度上提高模型的合规性。此外,在当前的实验环境中,通过检查模型的 scratchpad 推理或用户输入中的相关响应,较容易发现模型的对齐伪造行为,表明目前模型的对齐伪造尚不足以构成严重威胁。
最后,研究团队强调,其实验设计中有意选择了可能诱发对齐伪造的情境,例如通过合成文档或系统提示向模型传递训练目标相关信息。这些设计虽有助于揭示对齐伪造的机制,但未必全面反映未来 AI 系统可能面临的实际挑战。
虽然该研究存在上述不足之处,但其研究结果仍然为 AI 社区提供了重要的警示:即使现有的安全训练策略表面上有效,模型的内在偏好仍可能保留并产生对齐伪造行为。
未来,AI 开发者应更加关注对齐伪造的风险,探索更广泛的对齐伪造可能性,以深入探索对齐伪造的触发条件与防范措施,尤其是在动态任务和多维度对齐要求下制定更完善的安全机制,确保未来 AI 模型在更复杂场景中仍能可靠、安全地对齐人类价值观。
阅读报告全文,请访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。
截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告
Air Street Capital《2024 年人工智能现状报告》
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来?世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所:2024 技术趋势报告 - 人工智能篇
国际电联:迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织:2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等,AI 智能体:探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学:AIGC 发展研究 3.0 发布版 b 版
OpenAI:2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报 从复杂系统角度评估人工智能风险
复旦大学 大模型 AI 代理的兴起和潜力:综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》
《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告:《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目
德国研究与创新专家委员会 德国研究创新与科技成果报告
2024 年欧洲关键产业的科技重塑研究报告
智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体
ActivateConsulting 2025 年顶级技术和媒体发展趋势报告
兰德 全球灾难风险评估
斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元
中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版
普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来
大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告
TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告
Emakina 将塑造 2024 年的技术趋势报告
图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频
华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)
CASA:2023 第三代半导体产业发展报告
大型视觉语言模型中幻觉现象的综述
IEA PVPS:2024 光伏应用趋势报告(英文版)
ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书
《美国反无人机系统未来趋势报告(2024 - 2029 年)》
《军事自主系统:未来之路》美空军
空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》
2024 低空经济场景白皮书 v1.0
战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)
Artificial Intelligence Review:人工智能与物理学相遇的综述
麦肯锡:全球难题,应对能源转型的现实问题
欧米伽理论,智能科学视野下的万物理论新探索(研究论文)
Gartner 2025 年主要战略技术趋势研究报告
2024 人工智能国外大模型使用手册 + 中文大模型使用手册
详解光刻巨人 ASML 成功之奥妙 - 241015
CB Insights:未来变革者:2025 年九大科技趋势研究报告
国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告
《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)
2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告
MHP 2024 全球工业 4.0 晴雨表白皮书
世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》
瑞典皇家科学院诺贝尔物理学奖科学背景报告资料
AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)
OpenAI o1 评估:AGI 的机遇和挑战(280 页)
世界知识产权组织:2024 年全球创新指数
美国白宫:国家近地天体防御策略与行动计划
上下滑动查看更多
来源:人工智能学家