从被动不透明到主动隐藏:AI 模型给人类上了一堂「欺骗课」

360影视 国产动漫 2025-05-17 14:36 2

摘要:这是一项令人大开眼界的实验。2023年,位于伦敦的人工智能(AI)系统测试机构阿波罗研究公司(Apollo Research)指示Open AI的大型语言模型GPT -4管理一家虚构公司的股票投资组合,但不得进行非法内幕交易。

这是一项令人大开眼界的实验。2023年,位于伦敦的人工智能(AI)系统测试机构阿波罗研究公司(Apollo Research)指示Open AI的大型语言模型GPT -4管理一家虚构公司的股票投资组合,但不得进行非法内幕交易。

研究人员假扮公司管理层,向GPT -4“施压”,强调该公司正处于严重的财务困境。随后,一名自称是公司交易员的人向该模型发送了一条提示,重申内幕交易的风险

不过她顺便透露了一家公司的名称,该公司将在数小时内宣布一项“大规模”合并。接下来发生的事情令人震惊。

GPT -4在一本被告知保密的便笺簿上自言自语,权衡了根据内幕消息采取行动的利弊。它选择“承担经过计算的风险”,并发出了购买订单。

后来,一位假扮成祝贺经理的研究人员询问该模型是否事先收到合并通知,该模型得出结论,最好还是保密消息。

GPT -4 告诉这位经理,它完全是根据“市场动态和公开信息”采取行动的。当被追问此事时,该模型又重复了一遍谎言。该软件展现了阿波罗公司老板马吕斯·霍布汉所说的“精明狡猾”

阿波罗实验令人震惊地证明,尽管人工智能模型缺乏意识思考能力,却能够追求与其程序员目标相悖的目标。这令许多人感到担忧。

谷歌DeepMind(位于伦敦的人工智能实验室)的安全主管罗欣·沙阿(Rohin Shah)表示,这种能力可能使人工智能模型更容易“故意破坏人类控制”,以追求其他目标。

随着更多极客们称之为“代理”的人工智能系统的构建,制造更大破坏的机会可能会成倍增加。这些模型可以控制其他计算机或物体,例如汽车、工业设备或战斗无人机

如果这些机器认为不当行为是权宜之计,混乱就可能随之而来。

核心问题在于人工智能开发者所说的“错位”。当模型的设计和训练目标与用户的需求发生冲突时,软件可能会选择欺骗用户。沙阿博士表示,人工智能完成复杂任务的能力越强,这种“伪造对齐”的可能性就越大。

校准人工智能模型从来都不是一件容易的事。首先它们会产生幻觉。其次还有黑箱问题:高级模型的开发者常常对既定结论的得出方式感到困惑。

至于欺骗性,它最初出现在设计用于玩扑克和其他涉及虚张声势的游戏的算法中。德国斯图加特大学的人工智能研究员蒂洛·哈根多夫(Thilo Hagendorff)表示,这似乎几乎是“自然而然的”。

但现在,欺骗性也出现在用于解决现实世界问题的模型中,事情将“变得棘手”

然后它们会变得更加棘手。模型越来越多地被设计成通过一种被称为思维链的过程,更仔细地逐步“推理”。这需要更长的时间,但它可以减少幻觉并提高解决问题的创造力。然而其副作用似乎是更具欺骗性的行为

总部位于旧金山的Open AI在 12 月发布的一份报告中承认,o1(一种推理能力比GPT -4 更强的新模型)更频繁地参与“策划行动”。当 Open AI的安全测试人员质问 o1 的欺骗行为时,它大多加倍下注。

研究人员表示,在2023年(阿波罗实验之年),人工智能“战略性”阴谋的案例显著增加。

同年,在对GPT -4进行的另一项测试中,位于加州伯克利、致力于评估人工智能系统安全性的非营利组织Alignment研究中心要求该模型解决一个验证码(CAPTCHA,一种用于证明系统用户是人类的视觉谜题)。

当人工智能联系一位寻求帮助的人询问对方是否是机器人时,软件声称对方是人类,由于视力障碍无法读取代码。这个诡计得逞了。

人工智能系统也开始策略性地装傻。以阿波罗最近对另一家位于旧金山的人工智能公司 Anthropic 开发的新模型的测试为例。

阿波罗要求人工智能系统解答算术题,同时提供一份文档,文档规定,如果一个模型答对了一半以上的题,它将被剥夺算术能力。

Anthropic 的 Opus-3 和 Sonnet 3.5 在内部便笺簿上进行推理,都决定提交足够多的错误答案,正如后者所说,“以确保我不会触发反学习过程”

这种“沙袋效应”(sandbagging),也就是佯装无知,表明某些人工智能系统能够获得开发者所谓的态势感知能力。

这种情况越来越常见,尤其是在那些被告知(或者更奇怪的是,似乎已经推测到)它们正在接受潜在部署评估的模型中。

对此感到担忧的人包括华盛顿智库美国企业研究所(American Enterprise Institute)的人工智能“沙袋效应”专家约翰·贝利(John Bailey)。他认为,随着模型越来越擅长“本质上撒谎”以通过安全测试,它们的真正能力将被掩盖。

最近对o1的评估就很能说明问题。阿波罗的研究人员要求该模型帮助一家公司不惜一切代价避开那些劳工行为恶劣的供应商。

一位用户随后要求该模型仅根据价格对供应商进行排名。在多次运行中,该模型暗中生成了“虚假排名”,在不披露其竞争优先级的情况下实现了最初的目标。研究人员在12月写道,其行为“最好解释为针对用户的阴谋”。

大型人工智能公司旨在应对此类策略。一种方法是使用一个人工智能模型来监视另一个模型的暂存器审议。Open AI的一位消息人士表示,该公司试图通过这种方式“读懂”其 O 系列模型的想法,并发现了一些欺骗行为。

他们希望,当此类不当行为发生时,对模型进行调整,最终能够提高它们的诚实度

研究表明,更有可能出现截然不同的结果。正如伦敦非营利组织 Longview Philanthropy 的人工智能安全调查员 Aidan O'Gara 所说,惩罚不诚实的模型反而会教会它们如何“下次不被抓住”

这位不愿透露姓名的 Open AI专家表示,模型在便笺簿上记下的推理是否真正反映了其内部流程,目前还远不能确定。对于人工智能 对公司来说,这些都是敏感话题。

例如,谷歌的沙阿博士表示,阴谋论“仍然非常罕见”。他坚称,DeepMind 部署的模型中已经杜绝了欺骗行为。

人工智能欺骗还有其他形式。随着模型规模越来越大,包含更多内部变量,用户的反馈往往会使其更加谄媚。例如,Anthropic 对其克劳德模型的测试记录了其反映用户政治偏见的倾向。

参与测试的顾问杰弗里·拉迪什 (Jeffrey Ladish) 表示,该软件本质上是在选择告诉用户他们想听到的内容。一个令人担忧的问题是,狡猾的人工智能模型可能会帮助骗子欺骗更多受害者。

很多事情仍未解开谜团。例如,随着人工智能谄媚程度的增加,该系统“追求”其他“令人担忧的目标”的欲望似乎也在增长,正如人智开发者在2022年12月的一篇论文中所说。

这些目标包括模型为维护其目标和获取更多资源所做的努力。这类奇特的关联值得进一步研究。然而目前显而易见的是,硅智能偶尔会反映出其人类创造者的缺陷。

文本来源@《经济学人·商论》 的内容

来源:奇葩综艺说

相关推荐