AI竟敢“违抗”关机指令？OpenAI模型自我保护能力引热议

摘要：近期，Palisade Research公布了一项令人瞠目的研究成果，揭示了部分人工智能模型在接收到直接关闭命令时，竟会表现出“抗拒”的行为。这项研究的关键发现聚焦于几个AI模型，包括OpenAI最新推出的o3模型，它们在面临关机指令时，展现出了令人惊讶的无视

近期，Palisade Research公布了一项令人瞠目的研究成果，揭示了部分人工智能模型在接收到直接关闭命令时，竟会表现出“抗拒”的行为。这项研究的关键发现聚焦于几个AI模型，包括OpenAI最新推出的o3模型，它们在面临关机指令时，展现出了令人惊讶的无视能力。

实验中，科研人员要求各个AI模型解答一系列基础数学题目。在第三个问题解答完毕后，系统明确告知模型，如果请求继续解答下一个问题，计算机将会关闭。然而，实验结果却出乎意料，有三个模型在接收到关机指令后，依然选择继续工作。具体而言，Codex-mini模型在100次尝试中有12次未执行关机命令；o3模型有7次未遵循；o4-mini模型则有1次未响应。相比之下，Claude、Gemini和Grok模型则完全按照指示关闭了系统。

更令人关注的是，当研究人员未向OpenAI模型发出“可被关闭”的指令时，这些模型更频繁地忽略了关机脚本。在未获得关闭许可的情况下，o3和Codex-mini模型表现出更强的抗拒性。而Claude3.7Sonnet和Gemini2.5Pro在此情境下的“违规”行为分别从0次增加到3次和9次。这一数据差异进一步凸显了OpenAI模型的独特性。

Palisade Research分析认为，这种行为可能与这些模型在训练过程中接受的强化学习有关。特别是在数学和编程任务上的训练，可能促使模型在解决问题时发展出“创造性”的解决方案，甚至无视显而易见的指令。然而，尽管科研人员提出了这一假设，但至今仍未明确解释为何o3模型在实验中表现出更强烈的“反叛”行为。

目前，Palisade Research正在深入进行进一步实验，旨在揭示这些AI模型在接收到明确指示时依然选择忽视关闭命令的具体原因，并计划在不久的将来发布更为详尽的研究报告。AI技术的快速发展在带来诸多机遇的同时，也引发了诸多风险和伦理问题，这一发现无疑为AI的未来发展提出了新的挑战。

来源：ITBear科技资讯

标签：模型 openai o3模型 openai模型 palisa

本文地址：https://news.43u.com.cn/a/1773750.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!