Anthropic CEO:希望DeepSeek能来美国,为我们工作

360影视 2025-02-06 18:55 2

摘要:今日,美国AI创企Anthropic的CEO Dario Amodei“”受邀做客美国知名中国研究播客“中国说(ChinaTalk)”,对其前不久发表的关于DeepSeek的万字檄文做出了更详细的解释和回应。

编译 | 云鹏
编辑 | 漠影

智东西2月6日消息,今日,美国AI创企Anthropic的CEO Dario Amodei“”受邀做客美国知名中国研究播客“中国说(ChinaTalk)”,对其前不久发表的关于DeepSeek的万字檄文做出了更详细的解释和回应。

在最新中国说43分钟的访谈中,主持人和Amodei主要讨论了以下几个主要话题:

1、中美之间的AI创新竞赛是否不可避免

2、鉴于DeepSeek发布了R1,美国应如何更新出口管制

3、Amodei想给中国工程师和DeepSeek传达的信息

4、针对模型蒸馏与AI安全技术防范措施

5、出口管制与相信AI将广泛促进人类繁荣之间的矛盾

在访谈中,Amodei明确提及了自己对这些问题的看法,探讨了以DeepSeek为代表的中国AI带来的挑战、美国及其自己的Anthropic要如何应对,并站在美国立场分析了美国进行出口管制的重要性。

Amodei的观点较为偏激,也将美国一些对华措施的底层逻辑真实扒开呈现了出来,美国AI野心昭然若揭。

以下是Amodei的一些代表性言论:

超级强大的AI就好比一个1000万人口的国家人人都是各个领域都诺贝尔奖得主。

DeepSeek能否继续开发前沿模型,取决于他们能获得多少芯片,以及能否获得比现在规模大得多的芯片。

既能保持领先,又能确保安全性的最佳方式是实施类似出口管制这样的措施,我们可以在中美之间制造差距。

出口管制从来不是为了阻止DeepSeek或其他任何中国公司获得几万数量级的芯片,而是阻止更大规模采购——DeepSeek不可能拥有100万个芯片。

保持领先有两种方式:你可以大幅加速,或者设法拖住对手。

在10到15年的时间跨度内,中国芯片可能会赶上……真正的竞争关键时期会在2026年、2027年,10到15年就像“永恒”那么漫长,几乎无关紧要。

我感觉华为芯片短期内不太可能与美国芯片相媲美。

当我们谈及中国时,这并非是中国人与美国人之间的对立……我们欢迎来自世界各地的人才。

我最希望DeepSeek能来美国,为我们公司或其他公司工作。

Dario Amodei曾在百度、谷歌工作,于2016年加入了OpenAI,曾经主导GPT-2和GPT-3开发。2021年,Amodei创立了Anthropic,其开发的Claude也是当前的明星通用大语言模型之一。

在此前Amodei发布的长文《论DeepSeek与出口管制》中,他认为DeepSeek对美国AI领导地位的威胁被夸大了,此外他还通过AI发展的三个特点来分析DeepSeek模型并非具有独特的突破性。

以下是对Amodei本次访谈的完整编译(为提高可读性,智东西在不违背原意的前提下进行了一定的增删修改):

Jordan Schneider(主持人):我们先简要探讨一下,AI的快速发展在国家实力方面可能会如何体现?

Dario Amodei:几个月前,我写了一篇名为《充满慈爱之机器(Machines of Loving Grace)》的文章,重点阐述了超强大AI的诸多积极应用。

我对超强大AI的模样有这样一个定义。我用“数据中心里的天才之国(country of geniuses in a datacenter)”这个表述,来描述所有公司都在努力打造的东西。这个表述对于理解其影响很有启发性。

这就好比突然出现一个拥有1000万人口的国家,而且所有人都是在各个领域博学多才的诺贝尔奖得主。这对国家实力意味着什么呢?想必,这会在很多方面提升国家实力。它会极大地加速经济发展能力,极大地推动科学进步。

或许很不幸,它可能在情报和国防方面也会产生影响,无论是在控制无人机群,还是分析情报信息方面。一般来说,拥有大量极其聪明、能以虚拟方式操控一切的实体,将从诸多方面成为强大实力的来源。

Jordan Schneider:为什么要写一篇关于出口管制的文章呢?

Dario Amodei:看到大家对DeepSeek的反应,而且我身处这个行业,又是这项技术的开发者之一,我发现很多观点并不正确。

这些观点来自那些没有密切关注技术实际发展脉络的人,他们原本不关注,直到出现了一家中国公司开发出模型这一新鲜事,才开始留意。他们错过了之前的许多进展,也误解了这个领域的动态。他们说:“天啊,这太便宜了。”也许他们对中国生产的东西有便宜的刻板印象,然后就按这个刻板印象来理解了。

正如我在文章里说的,现实情况是,这个领域一直存在成本下降的趋势,与此同时,我们在训练模型上投入的资金越来越多。这些模型非常强大,在经济上也非常有用,以至于为打造更好、更智能的模型而增加投入的反向趋势,已经超过了降低成本的趋势。

时机就是这样,DeepSeek能够发布一些确实包含重要创新的成果,而且符合我们过去看到的AI成本下降曲线。这并非是用600万美元做出了其他公司要花数十亿美元才能做出来的东西。更像是我们看到,与半年到一年前训练的模型相比,成本每年大约降低75%左右。

我们会看到,很多参与者现在都能以很低的成本生产出那种质量的模型,而包括DeepSeek在内的多个参与者,会投入更多资金去训练更强大的模型。

现在的情况是出现了一个新的竞争者:DeepSeek也可能会被归入Anthropic、OpenAI、谷歌、Meta和xAI这些能够训练AI的大公司中。也许中国还会有其他这样的公司,这是一个里程碑,这是以前没有发生过的事情,这让我有些担忧,但人们的反应有些过度。

Jordan Schneider:你提到的重大变化是有一家中国公司,或许还会有更多中国公司,在技术上取得进展。那么,就模型方面而言,人们具体应该重新评估哪些内容,以展望未来可能出现的差距呢?

Dario Amodei:我想明确一点,我们关注DeepSeek已经很久了。一年多来,我们一直认为DeepSeek很可能是中国最具实力的AI大模型参与者。这也影响了我们对事情发展态势的判断。

对于那些刚刚注意到DeepSeek的人来说,情况的变化在于,之前美国有三到五家公司能够开发前沿或接近前沿的模型。现在,美国有三到五家公司,中国有一家公司。这家中国公司能否继续开发接近前沿的模型,取决于他们能获得多少芯片,以及能否获得比目前规模大得多的芯片。

Jordan Schneider:包括你在内的AI安全领域人士,多年来一直警告竞赛动态(racing dynamics)带来的风险。我很好奇,你是如何形成当前对出口管制的看法的呢?

Dario Amodei:这两者其实并不矛盾。我担心的是,如果中美在这项技术上势均力敌,每个阶段都不相上下,那么基本上就没有什么能阻止双方大力开发这一技术了。

由于这项技术具有巨大的经济价值和军事价值,双方继续推动技术进步在理性层面上是完全说得通的。

在没有确凿危险证据的情况下,各方会有相当大的动力继续开发这项技术。我特别担心的是美国的立法情况。比如那些旨在衡量,甚至在某些时候限制AI系统风险的法律。

在过去一年左右的时间里,美国出台了各种相关立法。有人反对这些立法的一个理由是:“嘿,如果我们放慢脚步,中国就会直接超越并打败我们。”这个理由完全正确。

对我们来说,最佳方式是实施类似出口管制这样的措施,我们可以在中美之间制造差距。

假设我们领先两年。也许我们可以在这两年中拿出六个月来确保我们自己开发的东西是安全的。换句话说,我们既能保持领先,又能确保安全性。

很长时间以来,我一直觉得让美国领先中国非常重要。这与我们在开发技术时想要谨慎行事的想法存在矛盾。保持领先有两种方式:你可以大幅加速,或者设法拖住对手。

我认为我们需要在一定程度上加速,但这一举措存在权衡取舍,因为加速越多,我们谨慎行事的时间就越少。但我认为在一定程度上解决这种权衡问题的一种方法是实施这些出口管制措施,因为它们扩大了差距,给我们提供了更大的缓冲空间,我们可以利用这个空间来管控自己的技术。不过这很难,很难两者兼顾。

Jordan Schneider:美国应该和不应该向中国出售哪些芯片呢?

Dario Amodei:首先,出口管制从来不是为了阻止DeepSeek或其他任何中国公司获得几万数量级的芯片。DeepSeek可能拥有大约5万个不同种类的芯片。出口管制在阻止大规模采购方面可能会更成功——DeepSeek不可能拥有100万个芯片,因为这很容易涉及数百亿美元的经济活动,甚至接近1000亿美元。

Jordan Schneider:英伟达的观点是,我们向中国出售的芯片越少,对华为芯片的需求就越大,他们的客户也就越多。有消息称DeepSeek在华为910B等芯片上运行效率极高。你对中国国内生产芯片的能力有何看法?这对出口管制中的半导体制造设备方面有什么影响?

Dario Amodei:在10到15年的时间跨度内,这种说法可能是对的,他们可能会赶上。但那里的供应链非常复杂,而且正如你提到的,我们也对半导体制造设备及设备维修实施了出口管制。

实际上,要制造出能与英伟达新的B100芯片,或者我们正在使用的Trainium和TPU芯片相竞争的芯片会很困难,软件生态系统也不够完善。

我感觉华为芯片短期内不太可能与美国芯片相媲美。正如我在《充满慈爱之机器》和关于出口管制的文章中所写的,真正会出现竞争,或者说实现力量平衡很重要的关键时期,将发生在2026年、2027年,最晚到2030年。

政策应该针对这个时间段。AI领域发展非常迅速,10到15年就像永恒那么漫长。几乎无关紧要。

Jordan Schneider:你怎么看待DeepSeek将其模型开源这件事?

Dario Amodei:DeepSeek发布模型有几个不同特点。一是发布了模型的权重。二是该模型在成本降低曲线上是一个高效且强大的模型,而且这是中国公司首次在成本降低曲线上达到这样的水平。

其中第二点比第一点重要得多。大部分影响都源于DeepSeek的模型是强大的模型。

在商业方面,我们发现我们的主要竞争对手是那些发布强大模型的公司,无论这些模型的权重是否开源。在与其他模型竞争时,一个模型的强大程度重要性占比约为80%到90%。

模型权重开源与开源软件不同,这里没有源代码,只有一堆数字。通常开源软件的一些优势和差异在这里并不那么明显。

那些有从开源模型权重起步历史的公司,在某个时候需要实现盈利,需要赚钱。他们往往会停止这种做法。这里更重要的因素是一家中国公司正在开发强大的模型。

仅从市场角度看,我们没有看到任何证据表明人们会在不考虑模型性能的情况下,因为模型权重开源就更喜欢某个模型。

Jordan Schneider:但你们每次通过API调用都会收取一定费用,对吧?

Dario Amodei:有趣的是,任何一种模型,无论在哪里,都必须在云端提供服务,这最终都会涉及费用。不管怎样都会有这种情况。同时,推理效率和模型训练存在巨大差异,模型训练发展非常迅速。

有时候我们在几周内就能将推理效率提高20%左右。各家公司都在相互竞争,以实现最高效的推理效率。大部分情况下,谁的推理效率最高、谁训练出最好的模型,这些因素更为关键。

▲大模型成本和性能点状分布图,来源:Latent Space

如果中国的一家公司很擅长以低成本提供模型服务,那么这将是竞争的一个领域。模型权重是否可用在很大程度上是一个干扰因素。

Jordan Schneider:与此相关的一个问题,你认为政府会在什么时候开始对模型开源感到不安呢?

Dario Amodei:从商业角度来看,开源和闭源之间的差异有点被夸大了。从安全角度而言,开源模型和闭源模型之间的差异也被夸大了。

最重要的是模型的强大程度。如果一个模型非常强大,那我既不希望它被泄露给中国,也不希望它通过开源的方式被提供给中国。如果一个模型没那么强大,那么不管是开源还是闭源,都没什么可担忧的。

Jordan Schneider:关于模型蒸馏,你有什么想说的吗?

Dario Amodei:就像我在博客文章里提到的,有一些报道称DeepSeek可能从OpenAI的模型中进行了模型蒸馏,他们声称有证据。实际上我还没有仔细研究过,所以无法判断这些报道是否准确。模型蒸馏确实是可以对模型进行的操作,所以这种情况有可能发生。

有几点很重要。其一,要开发出检测模型蒸馏的方法。或许可以通过观察一个模型,以及另一个据称是由它蒸馏而来的模型,将二者放在一起比较,从而判断后者是否由前者蒸馏得到。

我会从一个模型生成大量输出,再从另一个模型生成大量输出,然后尝试判断一个模型是否源于另一个模型的蒸馏。

这其实已经能在一定程度上看出来,因为它们会有相似的特点,表述方式也相似。要是能把这个转化为某种可测量的统计测试就好了。此外,还有预防模型蒸馏的监测技术。

人们正在研究应对模型破解的方法。我们今天刚刚发布了一些成果,能让破解模型变得困难得多。

▲模型破解成功率对比,来源:Anthropic

Jordan Schneider:对于在西方学习、听到这些内容并心想“我为什么要为这家伙工作?”的中国留学生,你有什么想说的?

Dario Amodei:我想把一件事说得非常清楚,当我们谈及中国时,这并非是中国人与美国人之间的对立。就我们公司而言,我猜其他美国公司也会这么说,我们欢迎来自世界各地的人才。我们对有才华的研究人员和工程师没有任何成见,无论他们在哪里工作。

我们和他们属于同一个群体。如果这里存在某种合作可能,很可能是通过这种民间层面的研究者对研究者的交流方式。我们绝对尽可能地欢迎这些人。

Jordan Schneider:你有什么想对DeepSeek说的吗?

Dario Amodei:他们看起来是很有才华的工程师。我想对他们说的主要是,要认真对待AI系统自主性方面的担忧。

美国大多数AI公司都表示,AI自主性以及AI滥用等问题都是潜在的严重且真实的问题。我最希望的是他们能来美国,为我们公司或其他公司工作。

Jordan Schneider:你能想象AI,尤其是开源AI,实际上是一种民主化力量吗?

Dario Amodei:我并不认为这与开源或闭源有很大关系。正如我在《充满慈爱之机器》中所写,AI可能有机会建立一个更统一、更公平的司法系统。

司法系统常常涉及做出主观判断,这些通常需要人来完成。人们担心如果由算法来做,会不太公平。但如果我们正确应用,AI系统可以创造一个更公平的社会,在这个社会中,人们更有可能在法律面前获得平等的正义。

Jordan Schneider:你写了两篇博客文章,从某种程度上说,它们之间似乎存在矛盾。全球六分之一的人口生活在中国,在你所设想的AI助力人类实现更大福祉的愿景下,你如何看待这一点呢?

Dario Amodei:实际上我认为这两者属于同一世界观的不同部分。

首先,我认为完全有可能将AI的益处惠及全球,包括中国。你可以采用通过API运行模型的方式,为中国提供药物研发服务,助力研发下一款抗癌药物。你还可以利用它帮助中国实现更高效的能源生产。

你可以将模型的大量运算时间租给中国的相关方,用于这些具有经济效益的活动。我认为这是一种有益的贸易形式,这种情况应该发生。

通过这种方式,AI的所有益处都能得到共享。

▲控制模型输出结果新方式示意图,来源:Anthropic

从更宏观的角度来看,从长远角度来看,我们希望AI的所有应用能够惠及所有人。我们必须制定出某种针对该技术的国际治理方案,达成某种稳定的平衡。

因为我说过美国最多领先两年。我希望,如果是美国牵头建立这种国际机制,事情会进展得更顺利。如果我们能凭借优势地位,为所有人争取安全部署AI的方案,情况也会更好。但如果我们处于弱势地位,就会担心被其他国家主导。

我认为,如果美国占据领先地位,就能在此做出一些更为宽宏大量的决策。我们现在就应该开始思考该怎么做。计划不应只是打败对手,我觉得那样甚至都行不通。计划必须是基于优势地位,去研究这项技术如何能让全世界受益,以及如何减轻其负面影响。

来源:智东西

相关推荐