摘要:说起 AI for Science,可能大家首先会想到累累硕果,例如 Alphafold3、Evo2 等工具可以预测几乎所有生命分子的结构、功能,GNoME 可以发现 220 万种新晶体……这些成果代表了 AI 在科学领域应用的进步历程。
第一时间掌握
新鲜的 AI for Science 资讯
图示:Nick McGreivy。
编辑 | 萝卜皮
说起 AI for Science,可能大家首先会想到累累硕果,例如 Alphafold3、Evo2 等工具可以预测几乎所有生命分子的结构、功能,GNoME 可以发现 220 万种新晶体……这些成果代表了 AI 在科学领域应用的进步历程。
但是,这些成果有没有被夸大报道呢?抛开理论,人工智能在现实世界中的实践效果究竟如何呢?
今天在这里给大家分享一个不同寻常的故事。
故事的主人公名叫 Nick McGreivy,去年刚刚在普林斯顿大学(Princeton University)获得博士学位,是一名物理学家。
他曾经对热衷于用「AI 加速物理学」,并因此将研究课题的重点转向了机器学习领域。但是,当他尝试将 AI 技术应用于实际物理问题时,结果却令他大失所望。
与大家第一次尝试 ChatGPT 等聊天机器人得到智障答案时的反应不同(最多也就发社交平台骂它一通,该用还得用啊,手动捂脸),Nick 认真分析总结了他用 PINN 求解偏微分方程时所得到教训,并深入探究了这件事背后容易被人忽略的一些方法论错误,同时对这些错误可能存在的科学研究场景进行了分析,最终给出了一些结论。
把这些结论翻译成人话就是:人工智能在科学界广泛使用,更多是「科学家受益」而非「科学受益」,加上研究者的论文往往报喜不报忧,存在大量幸存者偏差,导致这个领域像「朋友圈精修图」——光鲜成果背后藏着被滤镜过滤的失败和过度美化的期待。
那么,是什么让曾经热衷于人工智能的 Nick 得出这样的结论呢?「AI 加速科学发现」真的是「伪命题」吗?Nick 最近发布的一篇文章也许能找到些线索。
以下为 ScienceAI 对 Nick McGreivy 文章的全文翻译整理。
2018年,作为普林斯顿大学等离子体物理学二年级博士生,我决定将研究重点转向机器学习。我当时还没有具体的研究项目,但我认为利用人工智能加速物理学研究可以带来更大的影响。(坦白说,人工智能领域的高薪工作也激励了我。)
我最终选择研究人工智能先驱 Yann LeCun 后来称之为「确实相当热门的课题」:利用人工智能求解偏微分方程 (PDE)。然而,当我试图在自认为很棒的研究成果的基础上继续探索时,却发现人工智能方法的表现远不像宣传的那样强悍。
起初,我尝试将一种被广泛引用的人工智能方法 PINN 应用于一些相当简单的偏微分方程,但发现它出乎意料地脆弱。
后来,尽管数十篇论文声称人工智能方法可以比标准数值方法更快地求解偏微分方程——在某些情况下甚至快上百万倍——但我发现,这些比较大多是偏颇的。当我将这些人工智能方法与最先进的数值方法进行同等比较时,人工智能所拥有的任何狭义的优势通常都消失了。
这段经历让我开始质疑人工智能即将「加速」甚至「彻底改变」科学的说法。我们真的即将进入 DeepMind 所说的「人工智能赋能科学发现的新黄金时代」吗?还是说,人工智能在科学领域的整体潜力被夸大了——就像我所在的学科领域一样?
许多其他机构也发现了类似的问题。例如,2023 年,DeepMind 声称发现了 220 万个晶体结构,这标志着「人类已知稳定材料的数量级扩展」。但当材料科学家分析这些生成的化合物时,他们发现它们「大部分都是垃圾」,并「礼貌地」表示该论文「没有得到任何新材料」。
相关链接:
https://www.nature.com/articles/s41586-023-06735-9 https://journals.aps.org/prxenergy/abstract/10.1103/PRXEnergy.3.011002
此外,普林斯顿大学计算机科学家 Arvind Narayanan 和 Sayash Kapoor 整理了一份涵盖 30 个领域的 648 篇论文的清单,这些论文均犯了名为「数据泄露(data leakage)」的方法论错误。每篇论文都存在数据泄露,导致结果过于乐观。他们认为,基于人工智能的科学研究正面临「可重复性危机」。
相关链接:
然而,过去十年来,人工智能在科学研究中的应用急剧上升。当然,计算机科学的影响最为显著,但其他学科——物理学、化学、生物学、医学和社会科学——也见证了人工智能的快速应用。在所有科学出版物中,人工智能的使用率从 2015 年的 2% 增长到 2022 年的近 8%。虽然很难找到过去几年的数据,但我们有充分的理由相信,这种持续上升地增长仍在持续。
图示:越来越多的科学家使用 AI 进行研究。
需要明确的是,人工智能可以推动科学突破。我担心的是突破的规模和频率。人工智能是否真的展现出足够的潜力,足以支撑如此大规模的人才、培训、时间和资金投入,从现有的研究方向转向单一范式?
每个科学领域对人工智能的体验都不同,因此我们应谨慎地进行论述。然而,我确信,我的经验中的一些教训可以广泛适用于整个科学领域:
1、越来越多的科学家们正热衷于使用人工智能进行科研,与其说是因为它「有利于科学」,不如说是因为它的存在本身就「有利于科学家」。
2、由于人工智能研究人员几乎从不发表负面结果,因此「人工智能」学科正经历着「幸存者偏差」。
3、发表的积极成果往往对人工智能的潜力过于乐观。
相关链接:https://arxiv.org/abs/2412.07727
因此,我开始相信,人工智能在科学上总体上并没有看上去那么成功和具有革命性。
归根结底,我不知道人工智能能否扭转数十年来科学生产力下降、科学进步停滞(甚至减速)的趋势。我认为没有人能做到。但除非高级人工智能领域出现重大(在我看来不太可能)突破,否则我预计人工智能将更多地成为一种渐进式、不均衡的科学进步的常规工具,而非革命性的工具。
对 PINN 的失望经历
2019 年夏天,我初次体验了后来成为我论文主题的内容:用人工智能求解偏微分方程。偏微分方程是用于模拟各种物理系统的数学方程,求解(即模拟)偏微分方程是计算物理和工程领域中极其重要的任务。我的实验室使用偏微分方程来模拟等离子体的行为,例如聚变反应堆内部以及外太空星际介质中的等离子体行为。
用于解决 PDE 的 AI 模型是自定义深度学习模型,同 AlphaFold 相比,它与 ChatGPT 更类似。
我尝试的第一个方法是所谓的物理信息神经网络(PINN)。PINN 的概念最近在一篇颇具影响力的论文中被提出,该论文已获得数百次引用。
相关链接:
与标准数值方法相比,PINN 是一种完全不同的求解 PDE 的方法。标准方法将 PDE 解表示为一组像素(例如图像或视频中的像素),并为每个像素值推导方程。相比之下,PINN 将 PDE 解表示为神经网络,并将方程代入损失函数。
作为一个甚至还没有导师的思想天真的研究生,PINN 对我来说有着无比的吸引力。它们看起来如此简单、优雅、通用。
它们似乎也取得了不错的结果。介绍 PINN 的论文表示:它们的「有效性」已「通过一系列经典流体问题、量子力学、反应扩散系统以及非线性浅水波的传播得到了证明」。我想,如果 PINN 能够解决所有这些偏微分方程,那么它们肯定也能解决我实验室关注的一些等离子体物理偏微分方程。
但是,当我用另一个同样极其简单的偏微分方程(一维弗拉索夫方程)替换那篇影响深远的论文(一维Burgers方程)中的一个示例时,结果看起来与精确解完全不同。
最终,经过大量的调优,我得到了一些看似正确的结果。然而,当我尝试稍微复杂一些的偏微分方程(例如一维弗拉索夫-泊松方程)时,无论怎么调优都无法得到合适的解。
几周失败后,我给另一所大学的朋友发了消息,他告诉我他也尝试过使用 PINN,但没有取得好的结果。
从 PINN 实验中学到的东西
最终,我意识到问题出在哪里。PINN 论文的原作者和我一样,「观察到某些特定的设置对一个方程能产生很棒的结果,但对另一个方程却可能无效」。但是,为了说服读者相信 PINN 有多么强悍,他们没有展示任何 PINN 失败的例子。
这次经历教会了我一些事情。
首先,要谨慎对待人工智能研究的表面价值。大多数科学家并不想误导任何人,但由于他们有强烈的动机去呈现有利的结果,所以仍然有被误导的风险。展望未来,我必须更加谨慎,甚至(或者说尤其)对那些成果显著、影响深远的论文保持怀疑态度。
其次,人们很少发表关于人工智能方法何时失败的论文,而只发表关于它们何时成功的论文。
PINN 论文的原作者并没有发表他们的方法无法解决的偏微分方程。我也没有发表我那些失败的实验,只是在一个不太知名的会议上做了海报展示。因此,很少有研究人员听说过它们。事实上,尽管 PINN 非常受欢迎,但四年后才有人发表一篇关于其失效模式的论文。那篇论文现在已被引用近千次,这表明许多其他科学家也尝试过 PINN 并发现了类似的问题。
相关链接:
第三,我得出结论,PINN 不是我想要的方法。它们确实简单优雅,但也太不可靠、太繁琐、太慢了。
截至今天,六年后,原始 PINN 论文已被引用 14,000 次,使其成为 21 世纪被引用次数最多的数值方法论文。
尽管现在人们普遍认为 PINN 在求解偏微分方程方面通常不如标准数值方法,但 PINN 在解决另一类被称为逆问题的问题上的表现如何仍存在争议。支持者声称 PINN 对逆问题「特别有效」,但一些研究人员对此提出了强烈质疑。
我不知道争论的哪一方是正确的。我愿意相信所有这些 PINN 研究已经取得了一些有用的成果,但如果有一天我们回头看 PINN,发现它只是一个巨大的引用泡沫,我也不会感到惊讶。
基线薄弱导致过度乐观
我的论文专注于使用深度学习模型求解偏微分方程,这些模型与传统求解器类似,将偏微分方程的解视为网格或图形上的一组像素。
与 PINN 不同,这种方法在我实验室关注的复杂、时间相关的偏微分方程上展现出了巨大的潜力。最令人印象深刻的是,一篇又一篇的论文证明了这种方法能够比标准数值方法更快地求解偏微分方程——通常快几个数量级。
最让我和导师兴奋的例子是流体力学中的偏微分方程,例如纳维-斯托克斯方程。我们认为我们可能会看到类似的加速,因为我们关心的偏微分方程——例如描述聚变反应堆中等离子体的方程——具有类似的数学结构。理论上,这可以让像我们这样的科学家和工程师模拟更大的系统,更快地优化现有设计,并最终加快研究的步伐。
到那时,我已经足够成熟,知道在人工智能研究中,事情并不总是像表面那么美好。我知道可靠性和稳健性可能是严重的问题。如果人工智能模型能够提供更快的模拟速度,但这些模拟的可靠性却更低,那么这种权衡是否值得?我当时并不知道答案,于是开始着手寻找答案。
但当我尝试——并且大多以失败告终——使这些模型更加可靠时,我开始质疑人工智能模型在加速偏微分方程方面究竟展现出多大的潜力。
根据一些备受瞩目的论文,人工智能求解纳维-斯托克斯方程的速度比标准数值方法快几个数量级。然而,我最终发现,这些论文中使用的基线方法并非目前最快的数值方法。当我将人工智能与更先进的数值方法进行比较时,我发现人工智能并不比更强的基线方法更快(或者最多只是略快一点)。
图示:当将用于解决 PDE 的 AI 方法与强基线进行比较时,无论 AI 具有何种狭义的优势,通常都会消失。
我和我的导师最终发表了一篇系统综述,探讨了使用人工智能求解流体力学偏微分方程的研究。我们发现,在 76 篇声称优于标准数值方法的论文中,有 60 篇(79%)使用了较弱的基线方法,这要么是因为它们没有与更先进的数值方法进行比较,要么是因为它们没有在平等的基础上进行比较。那些加速比较大的论文都与弱基线方法进行了比较,这表明结果越令人印象深刻,论文的比较就越有可能不公平。
相关链接:https://www.nature.com/articles/s42256-024-00897-5
图示:一项系统性回顾研究的结果,比较了用于求解流体力学偏微分方程的人工智能方法与标准数值方法。报告负面结果的论文很少,而报告正面结果的论文大多与较弱的基线方法进行了比较。
我们再次发现的证据表明,研究人员倾向于不报告负面结果,这种效应被称为报告偏差。我们最终得出结论,AI 用于 PDE 求解的研究过于乐观:「薄弱的基线会导致过于积极的结果,而报告偏差会导致负面结果的漏报。」
这些发现引发了关于计算科学和工程领域人工智能的争论:
1、乔治华盛顿大学 (GWU) 教授 Lorena Barba 曾在她所谓的「愚弄大众的科学机器学习」中讨论过糟糕的研究实践,她认为我们的研究结果是「确凿的证据,支持了我们计算科学界对人工智能的炒作和不科学的乐观主义的担忧」。
2、谷歌研究院一个独立得出类似结论的团队的负责人 Stephan Hoyer 将我们的论文描述为「对我为什么从偏微分方程的人工智能转向天气预报和气候建模的一个很好的总结」,这些是人工智能看起来更有前景的应用。
3、Johannes Brandstetter 是林茨约翰肯塔基大学 (JKU Linz) 的教授,同时也是一家提供「人工智能驱动的物理模拟」的初创公司的联合创始人。他认为,人工智能可能会在更复杂的工业应用中取得更好的效果,并且「该领域的未来无疑充满希望和潜在的影响」。
在我看来,人工智能最终可能会在某些与求解偏微分方程相关的应用中发挥作用,但目前我并没有看到太多乐观的理由。我希望看到更多关注点放在如何达到数值方法的可靠性以及红队人工智能方法(red teaming AI methods)上;目前,它们既缺乏理论保证,也缺乏标准数值方法经实验验证的稳健性。
我还希望资助机构能够激励科学家为偏微分方程组创建挑战性问题。CASP 就是一个很好的例子,这是一个两年一度的蛋白质结构预测竞赛,在过去 30 年里,它帮助激励并集中了该领域的研究。
人工智能会加速科学发展吗?
除了蛋白质结构(人工智能实现科学突破的典型例子)之外,人工智能取得科学进步的一些例子包括:
1、天气预报,与传统的基于物理的预报相比,人工智能预报的准确率提高了 20%(尽管分辨率仍然较低)。
2、药物研发:初步数据显示,AI 发现的药物在 I 期临床试验中取得了更大的成功(但 II 期临床试验中则不然)。如果这一趋势持续下去,这意味着端到端药物审批率将提高近两倍。
但人工智能公司、学术和政府组织以及媒体越来越多地将人工智能不仅视为一种有用的科学工具,而且认为它「将对科学产生变革性影响」。
我认为我们不应该忽视这些说法。尽管根据 DeepMind 的说法,目前的 LLM「仍然难以达到人类科学家所依赖的更深层次的创造力和推理能力」,但假设先进的人工智能系统有朝一日或许能够完全自动化科研流程。我不认为这种情况会在短期内发生——甚至永远不会发生。但如果这样的系统被创造出来,毫无疑问它们将改变并加速科学的发展。
然而,根据我的研究经验中的一些教训,我认为我们应该对更传统的人工智能技术能够显著加速科学进步的想法持怀疑态度。
对人工智能的科学启示
大多数关于人工智能加速科学发展的论调都来自人工智能公司或从事人工智能研究的科学家,他们直接或间接地从这些论调中获益。例如,NVIDIA 首席执行官黄仁勋就曾谈论「人工智能将推动科学突破」和「将科学发展速度提高一百万倍」。由于存在经济利益冲突,NVIDIA 经常对人工智能在科学领域的应用发表夸张的言论。
你可能会认为,科学家越来越多地采用人工智能,这证明了人工智能在科学研究中的实用性。毕竟,如果人工智能在科学研究中的使用呈指数级增长,那一定是因为科学家觉得它有用,对吧?
我不太确定。事实上,我怀疑科学家们转向人工智能,与其说是因为它有利于科学,不如说是因为它对他们自己有利。
想想我在 2018 年转向人工智能的动机。虽然我真心认为人工智能可能在等离子体物理学中发挥作用,但我主要还是为了更高的薪水、更好的工作前景和学术声望。我还注意到,实验室里的高层通常对人工智能的融资潜力更感兴趣,而不是技术方面的考虑。
后续研究发现,使用人工智能的科学家更有可能发表高被引论文,平均引用次数是其他科学家的三倍。鉴于使用人工智能的动力如此强烈,如此多的科学家选择这样做也就不足为奇了。
因此,即使人工智能在科学领域取得了真正令人印象深刻的成果,也并不意味着它对科学做出了贡献。更多时候,这仅仅反映了人工智能未来应用的潜力。
这是因为从事人工智能研究的科学家(包括我自己)经常采用逆向思维。我们不是先发现问题,然后尝试寻找解决方案,而是先假设人工智能就是解决方案,然后再寻找需要解决的问题。
但由于很难确定可以使用人工智能解决的开放性科学挑战,这种「用锤子寻找钉子」的科学风格意味着研究人员通常会解决适合使用人工智能但已经被解决或不会创造新的科学知识的问题。
为了准确评估人工智能对科学的影响,我们需要切实地审视科学本身。但遗憾的是,科学文献并非评估人工智能在科学领域成就的可靠来源。
一个问题是幸存者偏差。用一位研究人员的话来说,由于人工智能研究「几乎没有发表负面结果」,我们通常只看到人工智能在科学上的成功,而看不到其失败。然而,如果没有负面结果,我们评估人工智能对科学影响的尝试通常会被扭曲。
任何研究过重复危机的人都知道,幸存者偏差是科学界的一个重大问题。通常,罪魁祸首是一个筛选过程,在这个过程中,统计上不显著的结果被从科学文献中过滤掉。
例如,医学研究中的z值分布如下所示。z 值在 -1.96 到 1.96 之间表示结果不具有统计学显著性。这些值附近的明显不连续性表明,许多科学家要么没有发表介于这些值之间的结果,要么在达到统计学显著性的阈值之前对数据进行了修改。
问题在于,如果研究人员未能公布负面结果,可能会导致医生和公众高估医疗治疗的有效性。
图示:医学研究中超过一百万个 z 值的分布。阴性结果(z 值在 -1.96 到 1.96 之间的结果)大多缺失。
类似的事情也发生在人工智能科学领域,尽管选择过程并非基于统计显著性,而是取决于所提出的方法是否优于其他方法,或是否成功完成某些新任务。这意味着,人工智能科学领域的研究人员几乎总是报告人工智能的成功,而很少在人工智能失败时发表结果。
第二个问题是,即使成功发表,某些方法论陷阱也常常会导致人们对人工智能在科学领域的应用得出过于乐观的结论。不同领域中陷阱的细节和严重程度似乎有所不同,但大多数陷阱可以归为以下四类:数据泄露、基线薄弱、选择性采纳和误报。
虽然造成这种过度乐观倾向的原因很复杂,但核心问题似乎在于利益冲突,即评估人工智能模型的人也从这些评估中获益。
这些问题似乎已经够糟糕了,我鼓励人们以对待营养科学中令人惊讶的结果的方式,本能地持怀疑态度来对待人工智能科学领域中令人印象深刻的结果。
好了,故事看完了。
不知道对大家有没有什么启示,欢迎在评论区留下你的看法。
相关内容:https://www.understandingai.org/p/i-got-fooled-by-ai-for-science-hypeheres
来源:人工智能学家