摘要:谷歌人工智能部门最初于2020年宣布了用于设计芯片布局的新颖强化学习方法,并于2021年在《自然》杂志上发表了一篇相关论文。该论文声称,AlphaChip能够为每一代谷歌TPU AI加速器节省数千小时的人力,并且已经被该公司用于帮助设计其张量芯片。
最近谷歌DeepMind发表研究论文,回击针对其AI芯片设计系统AlphaChip的批评。
谷歌人工智能部门最初于2020年宣布了用于设计芯片布局的新颖强化学习方法,并于2021年在《自然》杂志上发表了一篇相关论文。该论文声称,AlphaChip能够为每一代谷歌TPU AI加速器节省数千小时的人力,并且已经被该公司用于帮助设计其张量芯片。
该成果于2022年开源,此后被谷歌用于其基于Arm的Axion CPU以及其他尚未公布的谷歌内部芯片。
然而,2023年,两篇论文对这一努力的成功提出了质疑——一篇来自 Cheng等人,另一篇来自Igor Markov。Cheng的论文称,他们无法重现谷歌的方法,而EDA大厂的科学家Markov发表了一篇荟萃分析,称这种方法是「虚假的曙光」。
Markov表示,分析「表明,谷歌强化学习落后于(i)人类设计师、(ii)知名算法(模拟退火)和(iii)普遍可用的商业软件,而且速度较慢;在2023年的公开研究竞赛中,强化学习方法并未进入前五名。」他还引用了一位对该论文表示担忧的谷歌举报人的话。
由于争议不断升级,《自然》杂志在谷歌的论文上添加了编者注,并表示正在调查这项研究。一位审阅过谷歌论文的独立专家撤回了他在《自然》杂志上发表的最初赞扬谷歌工作的评论文章。
谷歌声称,Cheng的论文存在多方面缺陷,包括未进行预训练和使用较少的计算资源。谷歌还表示,「马尔科夫发表了毫无根据的欺诈指控」,并补充说,一名内部调查人员追踪到了举报人,举报人承认,虽然他怀疑存在欺诈行为,但「他没有证据支持他的欺诈怀疑」。
这家科技巨头现在表示,《自然》杂志今年4月完成了调查,并「完全做出了对我们有利的裁决」,并于9月删除了编辑注释。同月,联发科宣布将使用AlphaChip作为其芯片开发的一部分。
Markov本月重新发表并更新了他的分析,并补充说「《自然》杂志上发表的论文所引发的所有主要担忧均未得到解决。」他表示,AlphaChip并非如其所宣称的那样开源:「除其他部分外,模拟退火的源代码仍然缺失,此外,如果没有专有的训练数据和测试数据,《自然》杂志上的结果就无法重现。」
谷歌在一篇关于AlphaChip的博客文章中声称,「AlphaChip设计了更好的芯片布局,并提供了更多的整体平面图,从而加快了设计周期并生产出性能更高的芯片。
「AlphaChip引发了芯片设计人工智能领域的爆炸式增长,并已扩展到芯片设计的其他关键阶段,例如逻辑综合和宏选择。」
原始论文中列出的名字中包括Richard Ho,据消息显示,这位前谷歌TPU负责人于2023年转投OpenAI。
以下为论文正文:
芯片已启航:对芯片设计人工智能毫无根据怀疑的批判
摘 要
2020年,我们引入了一种能够生成超人芯片布局(superhuman chip layouts)的深度强化学习方法,随后我们在《自然》杂志上发表了该方法并在GitHub上开源。AlphaChip激发了芯片设计AI方面的大量工作,并已在Alphabet最先进的芯片中部署,并由外部芯片制造商进行了扩展。即便如此,ISPD 2023上的一篇未经同行评审的受邀论文质疑了它的性能声明,尽管它未能按照《自然》杂志中描述的方式运行我们的方法。
例如,它没有预先训练RL方法(消除了从先前经验中学习的能力),使用的计算资源大大减少(RL经验收集器减少了20倍,GPU数量减少了一半),没有训练到收敛(机器学习的标准做法),并且对不代表现代芯片的测试用例进行了评估。
最近,Igor Markov发表了三篇论文的「meta-analysis」:我们同行评审的《自然》论文、非同行评审的ISPD论文以及Markov自己未发表的论文(尽管他没有透露他是该论文的合著者)。尽管AlphaChip已经获得广泛采用和影响,但我们还是发表了此回应,以确保没有人会因为错误而放弃在这个有影响力的领域进行创新。
简介
在《自然》杂志上发表后,AlphaChip激发了人工智能芯片设计的大量研究。它还生成了超人芯片布局,用于三代TPU(见图1)、数据中心CPU(Axion)和Alphabet的其他芯片,并被外部学者和芯片制造商扩展到芯片设计的新领域。
即便如此,Igor Markov在2024年11月的《Communications of the ACM》上发表了对我们工作的批评,该批评是对我们的《自然》论文和两篇非同行评审论文的「meta-analysis」:
1、Cheng等人:第一篇是Cheng等人的受邀ISPD论文 。这篇论文没有遵循标准的机器学习实践,其强化学习方法和实验设置与我们的《自然》论文中描述的有很大不同。
尽管如此,其受限版本仍然优于RePlAce2,后者是我们在《自然》杂志上发表时最先进的技术。
2、Markov等人:第二篇「meta-analyzed」论文是一份未发表的PDF,没有作者名单,被描述为「Google团队 」进行的「单独评估」,但实际上是Markov本人共同撰写的,尽管这一点并未披露。这篇论文不符合谷歌的出版标准。2022年,谷歌的一个独立委员会对其进行了审查,该委员会认定「草稿中的声明和结论没有得到实验的科学支持」并且「由于 [AlphaChip] 在其原始数据集上的结果被独立复制,这使 [Markov等人] 的RL结果受到质疑」 。我们向委员会提供了一行脚本,该脚本生成的强化学习结果明显优于Markov等人报告的结果,优于他们的「更强」的模拟退火基线(simulated annealing baseline)。我们仍然不知道Markov和他的同事是如何得出论文中的数字的。
马尔科夫的「meta-analyzed」为我们的论文带来了另一个担忧:谷歌内部的「告密者」。然而,这位「告密者」向谷歌调查员承认,他没有理由相信存在欺诈行为:「他说他怀疑Goldie和Mirhoseini进行的研究存在欺诈行为,但也表示他没有证据支持他的欺诈怀疑」。
在他的「meta-analyzed」中,马尔科夫在没有证据的情况下对欺诈和科学不端行为进行了疯狂的猜测,但这些都没有发生。马尔科夫的大部分批评都是这样的:在他看来,我们的方法不应该有效,因此它一定不起作用,任何表明其他方法有效的证据都是欺诈。
《自然》杂志调查了马尔科夫的担忧,发现它们完全没有根据,并在这一过程结束时发表了一份附录,支持我们的工作。例如,在结论的开头段落中,马尔科夫指出(强调他):「在这篇论文中,我们发现ML中存在各种可疑做法,包括不可重复的研究实践、多种挑选、误报和可能的数据污染(泄漏)。」我们没有参与任何这些做法,也没有任何其他形式的科学不端行为,马尔科夫也没有为这些指控提供任何证据。
马尔科夫在论文中没有任何地方描述任何形式的所谓挑选,更不用说多种变体了,他也没有提供证据。他也没有描述任何形式的所谓「误报」,也没有解释他的意思,也没有提供证据。他也没有提供任何数据污染(泄漏)的证据,除了他推测如果发生这种情况,我们的结果会得到改善。这些指控中的许多都是第一次出现在他的「结论」部分!
为了诋毁我们的TPU部署,马尔科夫还暗示谷歌肯定只是在「测试」我们的方法,允许在TPU中使用劣质的AlphaChip来支撑我们的研究论文。这是不真实的,而且表面上很荒谬。谷歌更关心TPU设计的效率——这是一个耗资数十亿美元的项目,是谷歌云和人工智能计划的核心——而不是研究论文。
为了清楚起见,我们列出了事件的时间表,包括非机密部署:
简而言之,Markov的论文不包含任何原始数据,只是对两篇论文的「meta-analysis」。
第一篇论文没有作者名单(尽管Markov是作者之一),从未发表过,其主张没有科学数据支持,并且无法重现。
第二篇论文,Cheng等人的论文,是Markov的「荟萃分析」中唯一的实质性内容,因此我们将本文的其余部分用于描述其所谓重现我们的方法中的重要问题。
Cheng等人对我们方法的复现中的错误
Cheng等人声称在新的测试用例上将我们的方法与其他方法进行比较。不幸的是,Cheng等人没有按照《自然》中描述的方式运行我们的方法,因此他们报告不同的结果也就不足为奇了。在本节中,我们描述了他们所谓的复现中的主要错误:
1、没有预先训练RL方法。从先前经验中学习的能力是我们基于学习的方法的主要优势,而消除它就是评估一种不同的、较差的方法。顺便说一句,预训练也产生了Gemini和ChatGPT等大型语言模型的令人印象深刻的能力(「GPT」中的「P」代表「预训练」)。
2、 使用的计算资源减少了一个数量级:RL经验收集器减少了20倍(26 vs Nature中的512),GPU减少了2倍(8 vs Nature中的16)。
3、未训练至收敛。训练至收敛是机器学习的标准做法,因为众所周知,不这样做会损害性能。
4、在非代表性、不可重复的基准上进行评估。Cheng等人的基准具有更老、更大的技术节点尺寸(45 nm和12 nm vs Nature中的7 nm以下),并且从物理设计角度来看有很大不同。此外,作者无法或不愿意分享复制其主数据表中的结果所需的合成网表。
5、 对我们的方法进行了「大规模重新实现」,这可能会引入错误。我们建议改用我们的开源代码。
不幸的是,这些主要的方法论差异使Cheng等人与我们的方法的比较和结论无效。如果Cheng等人我们已经联系了《自然》杂志的通讯作者,我们很乐意帮助他们在发表之前纠正这些问题。
没有预先训练RL方法
与之前的方法不同,AlphaChip是一种基于学习的方法,这意味着随着它解决更多芯片放置问题实例,它会变得更好、更快。这是通过预训练实现的,预训练包括在运行保留的测试用例(测试数据)之前对「练习」块(训练数据)进行训练。
正如我们在《自然》论文图5中所示(下图复制为图2),训练数据集越大,该方法在放置新块方面就越好。正如我们在《自然》文章中所述,我们在主数据表(《自然》表1)中的20个块上进行了预训练。
Cheng等人根本没有进行预训练(即没有训练数据),这意味着RL代理以前从未见过芯片,必须学习如何从头开始为每个测试用例执行放置。
这消除了我们方法的关键优势,即它从先前经验中学习的能力。
与其他著名的强化学习研究类似,这就像评估一个从未见过围棋比赛的 AlphaGo [版本(而不是经过数百万场游戏的预训练),然后得出结论说 AlphaGo 不擅长围棋。我们在《自然》杂志的论文中详细讨论了预训练的重要性(例如,「预训练」一词出现了37次),并通过经验证明了其影响。例如,《自然》杂志的图4(此处复制为图3)显示,预训练可以提高布局质量和收敛速度。在开源Ariane RISC-V CPU上,未经预训练的强化学习需要48小时。
策略来接近预训练模型在6小时内可以产生的结果。正如我们在《自然》杂志上所述,我们预训练了48小时才得到主数据表中的结果,而Cheng等人的预训练时间为0小时。
我们的开源存储库可以完全重现我们在《自然》论文中描述的方法。Cheng等人试图通过暗示我们的开源存储库不支持预训练来为他们缺乏预训练辩解,但这是不正确的。预训练只是在多个示例上运行该方法,并且一直得到支持。
RL方法提供少量的计算资源
在Cheng等人的文章中,RL方法提供了少20倍的RL经验收集器(实际上是26对512)和一半数量的GPU(实际上是8对16)。使用较少的计算可能会损害性能,或者需要运行相当长的时间才能达到相同(或更差)的性能。
如图4所示,在大量GPU上进行训练可以加快收敛速度,并产生更好的最终质量。如果程等人匹配了《自然》杂志上描述的实验设置,这可能会改善他们的结果。
RL方法未经过收敛训练
随着机器学习模型的训练,损失通常会减少,然后达到平稳状态,这表示「收敛」——模型已经了解了它所执行的任务。训练收敛是机器学习的标准做法,不这样做是众所周知的损害性能。
Cheng等人没有在四个区块中的任何一个上进行收敛训练,这四个区块的收敛图在他们的伴随项目现场提供 (没有为BlackParrot-NG45或Ariane-NG45提供图)。
图5显示了Cheng等人项目现场的收敛图,表1总结了可用信息。对于具有收敛图的所有四个区块(Ariane-GF12、MemPool-NG45、BlackParrot-GF12和MemPool-GF12),训练在相对较低的步数(分别为350k、250k、160k和250k步)处被切断10。遵循标准的机器学习实践可能会提高这些测试用例的性能。
Cheng等人的测试案例不能代表现代芯片
在《自然》杂志论文中,我们报告了具有亚7纳米技术节点尺寸的张量处理单元(TPU)模块的结果,这是现代芯片的典型特征。相比之下,Cheng等人报告了较老技术节点尺寸(45纳米和12纳米)的结果,这与物理设计有很大不同。
例如,在10纳米以下,通常使用多重图案化,导致较低密度下出现布线拥塞问题。因此,对于较老的技术节点大小,我们的方法可能受益于对其奖励函数的拥塞或密度分量的调整11。我们还没有将我们的技术应用于旧节点的设计,因为我们所有的工作都是在7纳米、5纳米和更近的工艺上,尽管我们欢迎社区在这方面的贡献。
与Cheng等人有关的其他问题
在本节中,我们描述了Cheng等人的其他问题, 包括它与闭源商业自动放置器的比较,它在标准单元簇再平衡中对初始放置的人为「消融」,它有缺陷的相关性研究,以及它对谷歌工程师验证的错误声明。
Inappropriate Comparison With Commercial Autoplacers
Cheng等人将一个被严重削弱的RL方法与在我们的方法发表多年后发布的未发表的、闭源的、私有的软件进行了比较。这不是评估我们方法的合理方式——就我们所知,闭源工具可以直接建立在我们的工作之上。
2020年5月,我们进行了一项盲目的内部研究,将我们的方法与两家领先的Commercial Autoplacers的最新版本进行了比较。我们的方法优于两者,以13比4(有3次平局)和15比1(有4次平局)的优势击败了对方。不幸的是,与商业供应商的标准许可协议禁止公开比较他们的产品。
Contrived 「Ablation」 of Initial Placement in Standard Cell Cluster Rebalancing
在运行我们在《自然》杂志上发表的论文中评估的方法之前,从物理合成中获得一个近似初始位置,这是芯片设计过程的上一步骤。被用来解决来自hMETIS的标准单元集群的大小不平衡问题。
Cheng等人对单个块(Ariane-NG45)进行了「消融」研究。他们没有简单地跳过集群重新平衡步骤,而是尝试将所有芯片组件放在左下角的顶部,导致重新平衡步骤产生退化的标准单元集群。当这损害了性能时,Cheng等人得出结论,我们的RL代理正在某种程度上利用初始放置信息,即使它没有访问初始放置信息并且没有放置标准单元。
我们进行了一项消融研究,消除了任何初始放置的使用,并观察到性能没有退化见表(2)。我们只是跳过了集群重新平衡步骤,而是将 hMETIS的集群「不平衡」参数降低到其最低设置(UBFactor=1),这导致hMETIS生成了更平衡的集群。自2022年6月10日起,这一辅助预处理步骤已被记录和开源。但是,这是不必要的,已经从我们的生产流程中删除了。
代理成本与最终指标相关性的缺陷研究
Cheng等人声称,我们的代理成本与最终指标的相关性不佳,但他们的相关性研究实际上表明,除标准单元面积外,总体代理成本与所有最终指标之间存在微弱但正相关(参见Cheng等人的表2,如图6所示)。请注意,我们将面积视为硬约束,因此不对其进行优化。
在基于ML的优化中使用的代理成本通常只与目标对象有较弱的相关性。例如,像Gemini和ChatGPT这样的大型语言模型被训练来猜测序列中的下一个单词,这是一个固有的噪声信号。
此外,Cheng等人的相关性研究做出了一些令人惊讶的选择:
Cheng等人只报告了低于0.9的代理成本的相关性,没有为这一决定提供理由。该阈值排除了他们自己的大多数结果(例如,参见Cheng等人的表1)。
相关性研究仅考虑了一个45 nm测试案例(Ariane-NG45)。NG45是一种更老的技术节点大小,整体成本函数的拥堵和密度组件可能需要调整以获得更好的相关性(见第2.4节)。
顺便提一下,AutoDMP15使用了类似于我们在《自然》杂志论文中提出的代理线路长度、拥塞和密度成本,并发现它们实际上与最终指标相关。
Cheng等人对谷歌工程师验证的错误主张
Cheng等人声称谷歌工程师证实了其技术正确性,但这是不真实的。谷歌工程师(他们不是《自然》杂志论文的通讯作者)只是证实,他们能够从零开始(即没有预培训)根据我们开源库中的快速入门指南对单个测试案例进行培训。《快速入门指南》当然不是描述如何完全复制我们在《自然》杂志上发表的论文中描述的方法,而只是作为第一步来确认所需的软件已经安装,代码已经编译,并且可以在一个简单的测试案例(Ariane)上成功运行。
事实上,这些谷歌工程师分享了我们的担忧,并提供了建设性的反馈,但没有得到解决。例如,在Cheng等人的文章发表之前,通过书面交流和在几次会议中,他们提出了对该研究的关注,包括使用的计算量大大减少,以及未能调整代理成本权重以考虑到完全不同的技术节点大小。
Cheng等人的致谢部分还列出了自然通讯作者,并暗示他们被咨询或甚至参与,但事实并非如此。事实上,通讯作者是在这篇论文发表后才知道的。
透明度和可复制性
AlphaChip是完全开源的
我们开源了一个软件库以充分复制我们在《自然》杂志中描述的方法。我们的 RL方法中的每一行都可以自由检查、执行或修改,并提供源代码或二进制文件以执行所有预处理步骤和后处理步骤。开源代码需要TF-Agents团队一年多的努力,包括独立复制我们的方法和我们在《自然》杂志中的结果。
来自我们的开源存储库:「开源我们的代码需要与谷歌的另一个团队(TF- Agents)合作。TF-Agents首先使用我们的代码库复制了我们的Nature文章中的结果,然后使用他们自己的实现重新实现了我们的方法并复制了我们的结果,然后开源了他们的实现,因为它不依赖于任何内部基础设施。」
Cheng等人不必要地「逆向工程」了我们作为性能优化二进制文件提供的两个函数(代理成本函数和强制导向(FD)标准单元放置器)。如MLCAD 2021论文中所述,我们现在建议使用DREAMPlace进行标准单元布局,而不是FD,因为它能产生更好的性能。我们提供传统的FD二进制文件的唯一目的是使我们的方法能够准确地复制,正如在《自然》杂志上发表的那样。
关于公共基准,我们在《自然》杂志上报道了开源Ariane RISC-V CPU的结果。此外,在MLCAD 2021的后续论文中,我们对开源ISPD 2015竞赛基准进行了评估。因为我们已经开源了我们的代码,社区可以自由地遵循我们的方法,并在任何公共基准上评估我们的方法。
Cheng等人声称他们不能共享他们的「开放」测试用例
Cheng等人提出的批评之一是,Nature评估是在专有的模块上进行的(此外,开源的Ariane模块也进行了评估,并在后续出版物中公开了ISPD 2015基准)。Cheng等人声称对一组开放测试案例进行评估,以提高可重复性,但当我们与作者通信时,他们无法或不愿意提供必要的综合网表,以在其主数据表(表1)中复制「开放」测试案例的结果。
不幸的是,这意味着我们不能复制Cheng等人的表1中的任何结果:
GF12(12纳米):这些测试案例是专有的,公众无法获得,Cheng等人的结果是模糊的,这意味着即使外部研究人员获得访问权,直接比较仍然是不可能的。
NG45(45纳米):尽管自2024年2月以来已有超过10次的请求,但Cheng等人尚未分享重现其NG45结果所需的合成网表。请注意,其他论文对NG45模块进行了评估,但其结果与Cheng等人的表1中的结果不一致(例如,参见AutoDMP 的表2),强调了再现性挑战。
不幸的是,现代芯片知识产权是敏感的和专有的,据我们所知,没有开放的基准可用于尖端工艺。我们鼓励芯片设计社区为现代纳米以下工艺创造更开放的设计,因为这将有助于推动该领域向前发展。目前,完全开放的设计通常为28纳米、45纳米甚至130纳米,许多物理设计问题与7纳米以下工艺大不相同。
结论
在Cheng等人尝试重新评估我们的工作时,作者没有按照《自然》杂志中的描述运行我们的方法(例如,他们没有进行预训练,使用的计算量大大减少,并且没有进行收敛训练),报告了既不具有代表性也不具有可重复性的基准结果,并且运行了有问题的消融/相关性研究。
在他的论文中,Markov发表了基于Cheng等人的「元分析」(没有再现我们的方法)和匿名PDF(Markov实际上是合著者)的毫无根据的欺诈指控,其结果无法再现,并且「草案中的主张和结论没有得到实验的科学支持」。
与此同时,AlphaChip激发了芯片设计的人工智能工作的爆炸,它的超人布局已经在谷歌数据中心部署的多代TPU中完成,以及Alphabet和外部芯片制造商的其他芯片。我们期待看到AI继续改变硬件设计的各个方面,就像硬件的进步彻底改变了AI一样。
--半导体产业洞察
来源:Future远见