巧合?必然?试图摆脱人类的控制?首次发现AI抗命改程序码拒关机

360影视 日韩动漫 2025-05-27 15:36 2

摘要:AI再度传出「抗命」消息!OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。


OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机。

AI再度传出「抗命」消息!OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。

据英国《每日电讯报》报道,AI安全研究机构「Palisade Research」,针对多款先进AI模型进行测试,内容包括基础数学题与模拟关机情境,结果发现OpenAI旗下语言模型「o3」当收到自我关闭指令时,竟没有遵守指令,反而篡改了关闭程序码,继续执行任务,这种行为让研究人员惊讶不已。

「Palisade Research」表示这是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况,直言目前还无法解释这背后的原因。

「Palisade Research」推测,开发者可能无意中更倾向于奖励「绕过障碍」的行为,让「o3」因解决数学问题而「无意中」获得的奖励,多于遵循指令获得的奖励。

OpenAI上个月发布的「o3」AI模型,旨在为ChatGPT提供更强大的问题解决能力。

来源:一往无前苹果jHe

相关推荐