摘要:AI再度传出「抗命」消息!OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。
OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机。
AI再度传出「抗命」消息!OpenAI旗下语言模型「o3」在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。
据英国《每日电讯报》报道,AI安全研究机构「Palisade Research」,针对多款先进AI模型进行测试,内容包括基础数学题与模拟关机情境,结果发现OpenAI旗下语言模型「o3」当收到自我关闭指令时,竟没有遵守指令,反而篡改了关闭程序码,继续执行任务,这种行为让研究人员惊讶不已。
「Palisade Research」表示这是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况,直言目前还无法解释这背后的原因。
「Palisade Research」推测,开发者可能无意中更倾向于奖励「绕过障碍」的行为,让「o3」因解决数学问题而「无意中」获得的奖励,多于遵循指令获得的奖励。
OpenAI上个月发布的「o3」AI模型,旨在为ChatGPT提供更强大的问题解决能力。
来源:一往无前苹果jHe
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!