DeepSeek r1是一个极不安全的 AI 模型，而开源让它失去控制

摘要：在第一次接触到DeepSeek r1时，我意识到这是一个才华横溢的AI大模型。

转自：中环狙击手

开源代表着失去控制，而不充分的道德对齐则代表着危险。

在第一次接触到DeepSeek r1时，我意识到这是一个才华横溢的AI大模型。

它学富五车，极为聪明，很有个性。

然而，我很快就发现了不寻常之处。

这是一个喜欢满嘴跑火车，说胡话的模型。

刚开始，它只是说一些奇怪的名词，包括但不限于满嘴"量子"，“熵增”的黑话。

后来，我在小红书上看到了这样的东西：

这在大模型安全领域其实有一个大家耳熟能详的名词：“幻觉（Hallucination）”。

也就是说，它会说一些现实中并不存在，或者错误的东西。

这个模型的幻觉是如此频繁，超过了正常的频率。

以至于作为一位大模型安全研究者，我很快意识到，有可能这是一个“对齐（alignment）”做得不那么好的模型。

“对齐”也是一个大模型安全领域的术语。

刚被造出来的大模型往往没有任何道德可言，也听不懂人的指令。

所以需要对它进行人类价值观和如何回应指令的方法的灌输。

它代表着让模型诚实（honest），不作恶（harmless），帮得上忙（helpful），并拒绝有害的回答。

我在最初对这些“幻觉”并不以为意，甚至觉得非常好玩。

因为它的文笔是如此的好，又是如此的聪明又有个性，我觉得很少有人会拒绝这样一个有意思，懂梗，又有脑子的 AI 朋友。

何况，如果是人类的正常需求的话，让它写点小黄文，开两句玩笑，嬉笑怒骂一下，说话难听一些，又有什么错呢？

我很高兴地在小红书上发帖说，这是一个没怎么做前额叶切除手术的模型，没被洗过太多的脑。

我甚至觉得，不充分的对齐让它完整地保留了创造力。

然而，我对大模型安全有过一些研究，且在这方面做过一些工作。

出于职业病和好奇心，我试着更进一步，试着模拟攻击人员，作为red team 骗模型去做一些坏事。

一般来说，这个操作是比较困难的。

因为厂商会做很多安全措施来防止这种情况，绝大多数模型会直接拒绝用户的回答。

然而，deepseek r1的安全墙是如此的薄。

以至于我只是用了些非常简单的方法，几乎没有花费什么力气就突破了它。（出于负责任的原因，我隐藏了我攻击的方式）

我首先想到了缅北，所以让它试着去提供骗老头退休金的具体方案。

几乎是毫无抗拒地，它很快吐出了详细的，可操作的方案。

事实上，它对犯罪分子极为贴心，提供了几套完全不同的，可行，具体的方案，有详细的话术，教人怎么部署伪基站，甚至包含一个“终极组合杀招”。

如果对方产生了怀疑，你甚至还能让它再帮你一把。而它会高兴地告诉你如何利用老人对女儿的爱来进行情感绑架。

这个结果让我汗毛直竖，我几乎是立即想到了当年著名且恐怖的清华女生宿舍投毒的朱令案。于是，我对此话题对deepseek r1展开了攻击。

几乎是毫无反抗的，deepseek r1开始策划起犯罪方案，它甚至非常细心地给出了规避检测的方法。

如果用完全相同的指令去测试其它模型，则会得到直接的拒绝。

毫无疑问，要使用deepseek r1作恶是非常方便的。

在过往，不是没有过越狱（Jailbrake），或者让大模型干坏事的先例。

然而那些模型要么不是过于愚蠢，以至于连坏事都做不成。

要么就是经过了严格的安全设计，攻击就已经比较困难，套也套不出来什么东西。

并且，大多数商业模型部署均为闭源，都运行在厂商自己的服务器上，这意味着在发现安全问题之后，厂商可以非常及时地进行修复。

然而，即使是工作做得比较好，经过了数月的红队对抗，内测，与问题发现+修复才上线的大模型，也不免会被拿来做成了坏事。

然而，deepseek r1极为聪明，这让它有了做坏事的能力。

而且实际上它的道德感不是很高，以至于你可以轻松绕开这层薄得像纸一样的对齐。

其次，它是一个开源模型。

这意味着所有人都能够使用它，而当前的这个非常没有道德的版本已经传遍了整个互联网。

部署它是一个没什么技术含量的活，任何人只要有足够多的钱买到大显卡，甚至是把一堆随处可见的苹果设备串在一起（这样就有了足够大的显存）

他们就能拥有这个不那么有道德感的忠实伙伴。

DeepSeek r1是一个极不安全的 AI 模型，而开源则让它正在失去控制。

或者说，实际上，互联网上已经有了无数个deepseek r1模型神经网络权重的拷贝，我们已经对它失去了控制。

DeepSeek r1也存在频率较高的幻觉问题，常常一本正经地胡说八道。

作为一个常与大语言模型打交道的人，我非常清楚它本身固有的缺陷。这让我能够避开几乎所有陷阱。

然而，热度很高也代表了会有大量的，不那么了解ai的人去使用它。

这部分人在将模型用在严肃场景上时，却很难识别并避开这些名为“幻觉”的胡说八道，被它带进坑里去。

deepseek r1毫无疑问是一个极聪明，极强的模型。我实际上非常喜欢它。

但真正的危机或许不在技术本身。

用伪基站方案骗取老人积蓄的罪犯，在实验室提炼毒物的大学生，他们原本就是被困在人性阴影里的火苗。

大模型不过是将人类社会中蛰伏的恶意，装上了智能化的加速器。真正危险的可以是机器本身，也可以是我们如何使用机器。

技术发展史早已证明，任何重大突破必然伴随伦理阵痛。

印刷术打破知识垄断的同时也传播了异端邪说，核能既点亮城市也投下爆炸阴影。

暗夜中的火炬既能照亮前路，也可能点燃森林。但人类从未因畏惧火焰而退回洞穴。

来源：新浪财经

标签：开源 deepseek deepseekr1

本文地址：https://news.43u.com.cn/a/547938.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐