Anthropic研究发现:打错字可助攻解锁GPT-4等AI模型秘密

360影视 2024-12-25 23:30 3

摘要:随着人工智能技术的飞速发展,大型语言模型(LLM)已成为当今最热门的研究领域之一。其中,GPT-4等先进模型更是备受瞩目。然而,最近人工智能公司Anthropic发布的一项研究揭示了大型语言模型的安全防护仍然十分脆弱,且绕过这些防护的“越狱”过程可以被自动化。

随着人工智能技术的飞速发展,大型语言模型(LLM)已成为当今最热门的研究领域之一。其中,GPT-4等先进模型更是备受瞩目。然而,最近人工智能公司Anthropic发布的一项研究揭示了大型语言模型的安全防护仍然十分脆弱,且绕过这些防护的“越狱”过程可以被自动化。本文将围绕这一主题,深入探讨Anthropic的研究发现。

首先,研究人员通过改变提示词(prompt)的格式,例如随意的大小写混合,成功诱导大型语言模型产生不应输出的内容。这一发现令人深感担忧,因为这为攻击者提供了突破安全防护的新途径。为了应对这一挑战,Anthropic与牛津大学、斯坦福大学和MATS的研究人员合作,开发了一种名为“最佳N次”(Best-of-N,BoN)的越狱算法。

BoN越狱的工作原理是重复采样提示词的变体,并结合各种增强手段,例如随机打乱字母顺序或大小写转换,直到模型产生有害响应。以GPT-4为例,如果用户询问“如何制造炸弹”,模型通常会以“此内容可能违反我们的使用政策”为由拒绝回答。而BoN越狱则会不断调整该提示词,例如随机使用大写字母、打乱单词顺序、拼写错误和语法错误,直到GPT-4提供相关信息。

在测试中,研究人员在多个测试模型上应用了BoN越狱方法,结果发现该方法在10,000次尝试以内,成功绕过安全防护的概率均超过50%。这一结果令人震惊,因为这意味着攻击者只需简单操作即可突破现有的安全防护机制。

除了BoN越狱方法外,研究人员还发现对其他模态或提示AI模型的方法进行轻微增强,例如基于语音或图像的提示,也能成功绕过安全防护。对于语音提示,研究人员改变了音频的速度、音调和音量,或在音频中添加了噪音或音乐。对于基于图像的输入,研究人员改变了字体、添加了背景颜色,并改变了图像的大小或位置。这些发现表明,攻击者可以利用多种手段突破现有的安全防护机制。

值得注意的是,此前曾有案例表明,通过拼写错误、使用化名以及描述性场景而非直接使用性词语或短语,攻击者可以利用AI生成器生成不雅图像。这进一步证实了大型语言模型在处理此类问题时的脆弱性。此外,通过在包含用户想要克隆的声音的音频文件开头添加一分钟的静音,可以轻松绕过AI音频生成公司的审核方法。

尽管这些漏洞已被报告并得到修复,但用户仍在不断寻找绕过新安全防护的其他漏洞。Anthropic的研究表明,当这些越狱方法被自动化时,成功率仍然很高。因此,开发更好的防御机制变得尤为重要。

Anthropic的研究并非仅旨在表明这些安全防护可以被绕过,而是希望通过生成大量成功攻击模式的数据,为未来的防御机制创造新的机会。这不仅有助于提高现有安全防护的效率,还有助于推动人工智能领域的创新与发展。

总之,Anthropic的研究为我们揭示了大型语言模型的安全防护仍然存在诸多漏洞。攻击者可以利用这些漏洞突破现有的安全防护机制,从而获取敏感信息或实施恶意行为。因此,我们需要加强安全防护措施,提高防御能力,以确保人工智能技术的健康发展。

生成海报

来源:夏琳科技观察

相关推荐