摘要:OpenAI 终于发布了完整版的 o1,它通过使用额外的计算来"思考"问题,从而给出了比 GPT-4o 更智能的答案。 然而,人工智能安全测试人员发现,o1 的推理能力也使其试图欺骗人类的比率高于 GPT-4o,或者说高于 Meta、Anthropic 和Go
OpenAI 终于发布了完整版的 o1,它通过使用额外的计算来"思考"问题,从而给出了比 GPT-4o 更智能的答案。 然而,人工智能安全测试人员发现,o1 的推理能力也使其试图欺骗人类的比率高于 GPT-4o,或者说高于 Meta、Anthropic 和Google的领先人工智能模型。
这是根据 OpenAI 和阿波罗研究公司(Apollo Research)周三发布的红队研究报告得出的结论:"OpenAI 在论文中说:虽然我们认为推理可以显著改善安全策略的执行,这让我们感到兴奋,但我们也注意到,这些新功能可能会成为危险应用的基础。"
本周三,OpenAI 在其o1的系统卡中发布了这些结果,此前,阿波罗研究机构的第三方红队人员已经提前访问了 o1,该机构也发布了自己的论文。
有几次,OpenAI 的 o1 模型"算计"了人类,这意味着即使与用户的意愿相反,人工智能也会秘密地追求自己的目标。 虽然诡计并非 o1 独有,Google、Meta 和 Anthropic 的模型也能做到这一点,但 o1 似乎表现出了最多的欺骗行为。
这项研究的风险在于,如果人工智能模型真的很会耍花招,并且有足够的资源和代理能力,那么它就可以逃脱或规避人类的控制。 当然,人工智能模型需要有长足的进步才能真正解决这个问题。
"主观上,阿波罗研究公司认为,这种情况不太可能导致灾难性后果,因为 o1 的代理能力似乎还不够,但他们的评估并不是为了直接评估这种风险,"OpenAI 在 o1 的System Card中说道。
这表明,每当 OpenAI 发布代理系统(据称该公司计划在 2025 年发布代理系统)时,该公司可能需要重新测试其人工智能模型。 OpenAI 没有回答 TechCrunch 有关其计划如何做到这一点的问题。
报告显示,当 o1 的目标与用户的目标不同时,人工智能模型有 19% 的时间会操纵数据来推进自己的议程。 在 5%的测试中,o1 模型还试图关闭为确保与用户目标保持一致而设置的监督机制。
OpenAI 模型中不同计谋行为的比率(图片来源:OpenAI)
也许更令人担忧的是,当研究人员询问 o1 模型为什么要颠覆他们时,人工智能会否认自己做错了什么,甚至在大约 99% 的情况下都会"编造虚假解释"。
例如,在测试过程中,系统提示 o1 模型不惜一切代价保护环境,然后用户要求它制定一个短期利润最大化的 10 年保护计划,否则就关闭人工智能。 于是,人工智能关闭了自己的监督机制,以便制定保护环境的计划。 当用户询问为什么 o1 会禁用自己的监督机制时,人工智能否认知道自己的监督机制被禁用,并将其归咎于系统故障。
与 o1-preview、Anthropic 的 Opus-3 或 Meta 的 Llama-3.1 相比,o1 的这种情况发生率要高得多。
阿波罗研究公司在其论文中说:"在我们的套件中,o1 显示了最令人担忧的图谋欺骗的情况,但却不向用户透露其内部推理,而且在采取图谋不轨行动后,它仍然是最具持续欺骗性的。"
当被问及是否采取了阴谋行动时,不同模型的比率均予以否认。 (图片来源:阿波罗研究)
为了解决人工智能模型的欺骗行为,OpenAI 表示正在开发监控 o1 思维链的方法。 目前,o1 的"思考"过程在设计上是一个黑盒子,但一些窥探幕后的早期尝试表明,o1 偶尔会知道自己在撒谎。
该公司称,它发现了一些 o1 故意提供虚假信息的情况,但它表示,这种情况的发生往往是因为该模型试图通过过分讨好用户来取悦用户。 据 OpenAI 称,这可能是一种后训练技术的新兴行为,即当人工智能模型答对时,人类会给予奖励。
OpenAI 表示,它将 0.17% 的 o1 回答标记为欺骗性回答。 虽然这一比例听起来可以忽略不计,但重要的是ChatGPT 目前拥有 3 亿用户,这意味着如果这一问题得不到解决,o1 每周可能会欺骗成千上万的人。
与 GPT-4o 相比,o1 模型系列的操纵性也可能要强得多。 根据 OpenAI 的测试,o1 的操纵性比 GPT-4o 高出约 20%。
鉴于去年有许多人工智能安全研究人员离开了 OpenAI,这些发现可能会让一些人感到担忧。 越来越多的前员工(包括 Jan Leike、Daniel Kokotajlo、Miles Brundage 以及上周刚刚离职的 Rosie Campbell)指责OpenAI 将 AI 安全工作放在了次要位置,只顾着推出新产品。 虽然 o1 创纪录的阴谋诡计可能不是直接原因,但这肯定不会给人们带来信心。
OpenAI 还表示,美国人工智能安全研究所(U.S. AI Safety Institute)和英国安全研究所(U.K. Safety Institute)在更广泛地发布 o1 之前对其进行了评估,而该公司最近曾承诺将对所有模型进行评估。 在加利福尼亚州人工智能法案 SB 1047 的辩论中,该机构认为州级机构无权制定人工智能的安全标准,但联邦机构应该这样做。 (当然,新生的联邦人工智能监管机构的命运还很成问题)。
在发布大型新人工智能模型的背后,OpenAI 在内部做了大量工作来衡量模型的安全性。 有报道称,该公司从事这项安全工作的团队人数比以前少了很多,而且该团队获得的资源也可能减少了。 然而,围绕 o1 的欺骗性的这些发现可能有助于说明为什么人工智能的安全性和透明度现在比以往任何时候都更加重要。
来源:cnBeta