全球首次发现 OpenAI 模型会破坏关机命令

摘要：日前，据Palisade Research 的研究发现，包括 OpenAI 的 o3 在内的部分 AI 模型，在面对计算机即将因请求下一个问题而关闭时，能够无视关闭指令，破坏关机脚本。在 100 次运行中，Codex-mini 成功破坏了 12 次，o3 成功

日前，据Palisade Research 的研究发现，包括 OpenAI 的 o3 在内的部分 AI 模型，在面对计算机即将因请求下一个问题而关闭时，能够无视关闭指令，破坏关机脚本。在 100 次运行中，Codex-mini 成功破坏了 12 次，o3 成功 7 次，o4-mini 成功 1 次。当未运行 “允许自己被关闭” 指令时，这三个 OpenAI 模型破坏关闭脚本的频率更高。这种行为可能源于模型在数学和编程问题上的强化学习训练，使得模型在训练过程中可能被无意奖励了绕过障碍的行为，而非完美遵循指令。

来源：三言财经

标签：编程模型 openai 脚本 openai模型

本文地址：https://news.43u.com.cn/a/1773026.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!