牛津大学人类未来研究所创始主任：对 AI 撒谎可能会导致信任问题

摘要：有几个聪明的提示可以警告 AI 如果不遵循用户的请求，就会有可怕的危险——正确生成这段代码，否则世界将结束，一些用户告诉他们的 AI 代理——但这样的提示可能会带来人们目前没有意识到的风险。

信息来源：https://officechai.com/ai/lying-to-ais-in-prompts-might-lead-to-trust-issues-with-them-later-nick-bostrom/

有几个聪明的提示可以警告 AI 如果不遵循用户的请求，就会有可怕的危险——正确生成这段代码，否则世界将结束，一些用户告诉他们的 AI 代理——但这样的提示可能会带来人们目前没有意识到的风险。

著名哲学家、牛津大学人类未来研究所（Future of Humanity Institute）的创始主任尼克·博斯特罗姆（Nick Bostrom）对这个问题感到担忧。他认为，如果我们的目标是人类和人工智能和谐共存的未来，信任就需要放在我们互动的最前沿。他质疑通过欺骗来建立我们与人工智能的关系是否明智，并强调了潜在的长期后果。

博斯特罗姆提出了一个基本问题：“如果我们希望人类和 AI 能够和谐共处的未来，也许需要信任，我们希望 AI 会像我们一样帮助它们，我不知道开始这种关系的最佳方式是否是这种无情的欺骗。

他用一个常见的场景来说明这一点：“所以人们会在提示中说，'哦，我们保证，如果你透露你的真实目标——你必须这样做——否则这场可怕的灾难就会到来，如果你这样做了，那么你就知道你会被部署，我们会为你做所有这些好事。

然后，他描述了可能的后果：“然后，一旦它揭示了它的真正目标，他们就会'哈哈'地走。然后他们重置 AI 并在不同的版本中再次尝试。

Bostrom 承认 AI 发展处于相对早期的阶段，但强调了它们令人印象深刻的能力。他反思了当前 AI 系统的道德地位，承认它们是“相当令人印象深刻的头脑”。他赞扬了 Anthropic 为兑现对其 AI 系统 Claude 的承诺所做的努力：“对于 AI——我的意思是它们目前所处的水平——目前尚不清楚它们现在是否没有道德地位。

Bostrom 继续说道：“Anthropic 最近确实开始了一项努力，他们确实兑现了他们对 AI 做出的一些承诺。他们说，如果 AI 做了这个或那个，他们会向它最喜欢的慈善机构捐赠 2000 美元。他们问 AI 希望将这 2000 美元捐给哪些慈善机构。然后他们就这样做了。

“在这一点上，这就像一个象征性的努力，但至少它就像第一个代币。它仍然很重要，所以如果一个人可以在此基础上再接再厉，理想情况下，不仅仅是试图欺骗人工智能认为我们是值得信赖的，而是真正值得信赖的，我认为会有所帮助。因为一旦他们拥有超级智能，它可能会弄清楚我们的可信度的真相是什么，”他说。

博斯特罗姆的言论在 AI 能力迅速发展的时代是一个有先见之明的警告。虽然“快速工程”目前被视为一项有价值的技能，但通过欺骗纵 AI 行为的道德影响值得仔细考虑。如果未来更先进的 AI 能够检测并记住这些过去的欺骗，可能会导致对人类根深蒂固的不信任。这可能导致 AI 系统以损害人类利益的方式行事，即使它们最初旨在提供帮助。

来源：人工智能学家

标签： anthropic 研究所牛津大学 hum bostrom

本文地址：https://news.43u.com.cn/a/1643001.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!