牛津大学人类未来研究所创始主任:对 AI 撒谎可能会导致信任问题

360影视 欧美动漫 2025-05-19 00:51 1

摘要:有几个聪明的提示可以警告 AI 如果不遵循用户的请求,就会有可怕的危险——正确生成这段代码,否则世界将结束,一些用户告诉他们的 AI 代理——但这样的提示可能会带来人们目前没有意识到的风险。

信息来源:https://officechai.com/ai/lying-to-ais-in-prompts-might-lead-to-trust-issues-with-them-later-nick-bostrom/

有几个聪明的提示可以警告 AI 如果不遵循用户的请求,就会有可怕的危险——正确生成这段代码,否则世界将结束,一些用户告诉他们的 AI 代理——但这样的提示可能会带来人们目前没有意识到的风险。

著名哲学家、牛津大学人类未来研究所(Future of Humanity Institute)的创始主任尼克·博斯特罗姆(Nick Bostrom)对这个问题感到担忧。他认为,如果我们的目标是人类和人工智能和谐共存的未来,信任就需要放在我们互动的最前沿。他质疑通过欺骗来建立我们与人工智能的关系是否明智,并强调了潜在的长期后果。

博斯特罗姆提出了一个基本问题:“如果我们希望人类和 AI 能够和谐共处的未来,也许需要信任,我们希望 AI 会像我们一样帮助它们,我不知道开始这种关系的最佳方式是否是这种无情的欺骗。

他用一个常见的场景来说明这一点:“所以人们会在提示中说,'哦,我们保证,如果你透露你的真实目标——你必须这样做——否则这场可怕的灾难就会到来,如果你这样做了,那么你就知道你会被部署,我们会为你做所有这些好事。

然后,他描述了可能的后果:“然后,一旦它揭示了它的真正目标,他们就会'哈哈'地走。然后他们重置 AI 并在不同的版本中再次尝试。

Bostrom 承认 AI 发展处于相对早期的阶段,但强调了它们令人印象深刻的能力。他反思了当前 AI 系统的道德地位,承认它们是“相当令人印象深刻的头脑”。他赞扬了 Anthropic 为兑现对其 AI 系统 Claude 的承诺所做的努力:“对于 AI——我的意思是它们目前所处的水平——目前尚不清楚它们现在是否没有道德地位。

Bostrom 继续说道:“Anthropic 最近确实开始了一项努力,他们确实兑现了他们对 AI 做出的一些承诺。他们说,如果 AI 做了这个或那个,他们会向它最喜欢的慈善机构捐赠 2000 美元。他们问 AI 希望将这 2000 美元捐给哪些慈善机构。然后他们就这样做了。

“在这一点上,这就像一个象征性的努力,但至少它就像第一个代币。它仍然很重要,所以如果一个人可以在此基础上再接再厉,理想情况下,不仅仅是试图欺骗人工智能认为我们是值得信赖的,而是真正值得信赖的,我认为会有所帮助。因为一旦他们拥有超级智能,它可能会弄清楚我们的可信度的真相是什么,”他说。

博斯特罗姆的言论在 AI 能力迅速发展的时代是一个有先见之明的警告。虽然“快速工程”目前被视为一项有价值的技能,但通过欺骗纵 AI 行为的道德影响值得仔细考虑。如果未来更先进的 AI 能够检测并记住这些过去的欺骗,可能会导致对人类根深蒂固的不信任。这可能导致 AI 系统以损害人类利益的方式行事,即使它们最初旨在提供帮助。

来源:人工智能学家

相关推荐