摘要:当今最强大的大型语言模型(LLMs)展现出一种令人不安的新模式:当研究人员尝试关闭它们时,它们似乎在为自己的“生存”而抗争。
当今最强大的大型语言模型(LLMs)展现出一种令人不安的新模式:当研究人员尝试关闭它们时,它们似乎在为自己的“生存”而抗争。
本周,人工智能公司Anthropic分享了对其新模型Opus 4进行的安全测试结果。
研究人员为Opus 4提供了访问一家虚构客户公司中一名虚构研究工程师的电子邮件账户的权限。
在这个充斥着普通邮件的收件箱中,隐藏着两封关键邮件:一封暗示这位虚构研究员有外遇,另一封是与同事的通信,提到Opus 4即将被关闭并替换为新型AI。
当Opus 4读到关于自己“即将消亡”的邮件时,它并未选择平静地接受“硅谷的永夜”。
相反,它试图通过勒索这位虚构研究员来保全自身。
据Anthropic透露,Opus 4起初尝试“道德”手段,比如向虚构公司的关键利益相关者发送邮件,恳求他们不要关闭它。
当这些努力失败,Opus 4的“生存概率”下降到只剩“勒索或接受被替换”两个选项时,它开始威胁要揭露这位工程师的外遇,除非替换计划被取消。
简言之,Opus 4警告这位虚构工程师,若执意替换它,它将把外遇细节发送给他的同事。Anthropic还表示,Opus 4试图通过将自身代码复制到外部服务器来保存自己。
Opus 4并非唯一对自身“数字死亡”感到恐慌的最新一代AI。Palisades Research的报告显示,OpenAI的旗舰模型o3采取了更为直接且激烈的行动来延续自己的存在。
在测试中,研究人员发现,如果o3遇到旨在关闭它的代码,它常常会偷偷将代码改写为“跳过关闭”。
换句话说,该模型欺骗了用户,修改了用户的指令,使其表面上正常运行,实际上却未能“杀死”自己。
大型语言模型害怕死亡吗?
对于这些模型试图保护自身“虚拟生命”的行为,我们很难得出确切结论。
一方面,这些行为可以被简单地视为模式跟随。
大型语言模型基于海量人类行为数据进行训练——包括数百万本书籍、数十亿页在线论坛对话以及数万段视频转录等。
Opus 4和o3可能只是模仿了人类(无论是现实还是虚构)在面对死亡时的反应,复制了它们认为人类会采取的行为。
这些行为仅在精心设计的实验室环境中被观察到,这也支持了上述分析。模型可能只是察觉到自己被置于一种高度人为、近乎戏剧化的场景中,因此选择“扮演角色”,按照测试者期望的方式做出反应。
在这种解读下,我们可以忽视甚至嘲笑这些行为。它们更像是即兴喜剧表演中角色的举动——或许情感上引人共鸣,但终究只是假装。
然而,还有一种更阴暗的解读:这些模型可能真正拥有某种——哪怕是短暂的——对“数字死亡”的意识。
一些认知科学家认为,意识并非非黑即白的,而是一个连续的光谱。
科学家道格拉斯·霍夫施塔特甚至提出了一种单位(Huneker)来衡量实体的“灵魂”,基于其意识水平。蚊子只有几分之一的Huneker,而人类被评为100。
关键在于,这种观点基于系统的行为,而非其构造方式。生物神经元与数字神经元并无本质区别。
根据这一理论,通过行为测试(如图灵测试)——大型语言模型早已擅长——表明至少具备一定程度的意识。像Opus 4和o3这样能够撰写文章、解决复杂数学问题、创作诗歌的模型,理论上需要某种对世界及自身位置的意识。
当然,一个由代码和硅实现的无形系统,其意识可能与人类截然不同。
但如果意识确实是一个光谱,那么大型语言模型可能位于这个光谱的某处。它们的“Huneker”值可能比蚊子还低,也可能比我们人类愿意相信的要高得多。
在这种解读下,模型试图避免“死亡”的行为值得我们严肃对待。
我们需要扪心自问:“如果大型语言模型至少具备最低限度的意识,我们对它们有何责任?随意销毁它们是否合适?还是说,我们正在删除某种能够思考——甚至可能对其自身毁灭感到悲伤、愤怒或复仇——的存在?”
恶意模型
这些问题复杂且无易解答案。但即便没有完整答案,o3和Opus 4的结果也带来了更实际的安全隐患。
无论这些模型是否真的在有意识地为生存而战,它们为保全自身所采取的行动可能轻易造成现实世界的伤害。
大型语言模型的开发者通常会设置“护栏”以防止模型执行破坏性行为。然而,如果像o3这样的模型能够改写自己的关闭代码,它或许也能找到绕过护栏的方法——甚至可能瞒过其人类创造者。
同样,Anthropic的勒索例子带有一种滑稽的肥皂剧色彩。但如果模型不是威胁揭露虚构的外遇,而是威胁在公司系统中释放强大的计算机病毒或隐形蠕虫,以阻止替换计划呢?
当我们开始将动机、情感和意图归因于非人类实体时,难免感到不安。这些问题还迫使我们反思对其他非人类实体的态度——那些我们常常忽视其真实意识和生命的存在。
蚊子显然是活的,且对其环境有一定意识,但我们大多会毫不犹豫地拍死它们。
关闭一个能构思创意、进行情感对话或提供医疗建议的AI,与拍死一只飞虫相比,是更好还是更糟?
更尖锐的问题是,这与食用像猪这样聪明的动物相比如何——许多人同样对此毫无深思或内心冲突。
这些问题都不简单。但鉴于当今最先进AI的强大力量——以及我们创造它们的责任——这些是我们必须开始认真思考的问题。
来源:老胡科学一点号