摘要:由Samuel Blau和同事开发的一种新颖的路径优化方法生成的反应路径,使用在Open Catalyst项目数据上训练的EScAIP。EScAIP的速度和低内存成本对于优化包含许多原子的结构的反应路径至关重要。图片由伯克利实验室的Samuel Blau和Er
分子系统的量子计算通常需要大量的计算能力;这些计算通常在世界上最大的超级计算机上进行,以更好地了解电池和半导体等现实世界的产品。
由Samuel Blau和同事开发的一种新颖的路径优化方法生成的反应路径,使用在Open Catalyst项目数据上训练的EScAIP。EScAIP的速度和低内存成本对于优化包含许多原子的结构的反应路径至关重要。图片由伯克利实验室的Samuel Blau和Eric Yuan提供。
现在,加州大学伯克利分校和劳伦斯伯克利国家实验室(伯克利实验室)的研究人员开发了一种新的机器学习方法,通过提高模型的可扩展性,大大加快了原子模拟。与现有模型相比,这种方法将模拟所需的计算内存减少了五倍多,结果的速度是十倍以上。
他们的研究已被神经信息处理系统(NeurIPS)2024年接受,神经信息处理系统是人工智能和机器学习的首要会议和出版场所之一。他们将在12月13日的会议上展示他们的工作。
加州大学伯克利分校研究生、该研究论文的合著者Eric Qu说:“我们想使用通常应用于大型语言模型的方法构建一种不同的机器学习架构。”“通过我们的方法,研究人员可以更有效地绘制原子如何移动和相互相互作用的地图。”
了解自然界最小的组成部分会发生什么,可以加深对材料科学、化学和药物开发以及其他基础科学科目的理解。
伯克利实验室计算化学家Samuel Blau说:“这个模型可以帮助科学家更有效地确定化学反应机制。”“如果你能理解现实世界系统中的复杂化学成分,你就可以弄清楚如何以新的方式控制它们。”
在过去的十年里,科学家和工程师使用大量数据集和一种称为扩展的策略构建了像ChatGPT这样的大型语言模型。缩放涉及通过系统地增加神经网络中的参数数量来使这些模型更大、更智能。如何增加这些参数很重要:不同的参数以不同的方式促进了模型性能,优化此过程可以带来显著的改进。
研究人员还可以在神经网络架构中设计新的操作或组件——例如新的注意力机制——这些机制更具表现力,在保持或提高效率的同时进一步增加参数。但这不仅仅是大小;缩放也意味着找到使这些模型更高效的方法,使用更智能的算法在训练和使用期间节省时间和计算能力。研究人员通常不只关注原始处理能力,而是通过训练或运行这些模型的实际时间来衡量效率,优先考虑现实世界的性能。
然而,缩放原理尚未广泛应用于另一种对科学家特别有用的机器学习模型:神经网络原子间电位(NNIPs)。NNIP是计算成本高昂的量子力学模拟的有效替代品,使研究人员能够更快地预测分子和材料特性。
论文合著者、加州大学伯克利分校助理教授、伯克利实验室应用数学和计算研究部的教师科学家Aditi Krishnapriyan说:“NNIP正在迅速成为分子或材料模拟的最强大的方法。”“以前,大规模设计智能算法主要在机器学习的其他领域开发,如大型语言模型,而用于研究材料、化学或物理学则不那么开发。”
因此,伯克利团队开发了一个可以有效扩展的NNIP架构。Krishnapriyan说,这种被称为高效缩放注意力原子间电位(EScAIP)的架构,是将机器学习模型扩展到科学应用方面向前迈出的一大步。
降雨数据
虽然ChatGPT等大型语言模型是在文本上训练的,互联网上存在数万亿个示例,但NNIP依赖于一种在计算研究中常见的称为密度泛函理论(DFT)的技术生成的数据。DFT是一种基于物理学的数值方法,它使用量子力学来预测原子在分子和材料中相互作用的方式。
虽然DFT模拟非常强大,但它们在计算上也很昂贵,而且生成大量DFT训练数据可能非常耗时。机器学习有可能通过充当DFT的替代模型来加速这些模拟。直到最近,才发布了包含1亿个数据点的DFT数据集,以前的数据集的最大数据点约为1至200万,为NNIP的扩展奠定了基础。
然而,当前包含物理约束的NNIP模型通常需要大量的计算机硬件、内存和处理时间,它也会在轻松优化神经网络参数方面增加复杂性。相比之下,EScAIP没有包含许多内置的物理约束;相反,它专注于使机器学习模型尽可能具有表现力,包括设计为原子设置定制的新注意力机制。
这种方法使EScAIP能够捕获数据中的复杂模式,并直接从数据本身学习关键的物理见解,绕过对明确约束的需求。例如,经过训练,EScAIP可以在新的、看不见的原子系统上,准确地将任何原子方向映射到预测的力,捕获被称为旋转等方差的对称性。
Blau说:“新的EScAIP模型可以在几天内对1亿个数据点进行训练,而物理受限的NNIP需要几周或几个月的时间。”因此,能够合理地训练这些模型的研究小组数量急剧增加。
Qu补充说:“我们真的相信使用以前难以获得的工具帮助人们追求他们的科学目标。”“EScAIP为拥有不同资源的科学家提供了机会。”
与之前最先进的NNIP相比,EScAIP有了显著的改进,经过训练的模型在跨越各种化学系统(如开放催化剂项目)、材料(如材料项目)和分子(如SPICE)的通用NNIP基准数据集中实现了最佳性能。在像Open Catalyst这样的数据集上,它也是第一个在排行榜上排名第一的模型,该模型纯粹由学术和国家实验室研究人员开发和培训,而不是由主要技术公司的团队开发和培训。然而,Qu和Krishnapriyan认为,该模型应该被视为新方向的第一步。
Krishnapriyan说:“我们正在对科学界说,'嘿,看看这里,让我们更多地探索这个想法。'”“EScAIP是关于如何在原子系统背景下思考扩展机器学习模型的初步概念证明,现在代表了可能的“下限”。我们认为,当我们进入一个拥有更多数据和计算资源的未来时,我们应该考虑进入该领域的方向。”
据Krishnapriyan称,EScAIP起源于伯克利实验室指导研发(LDRD)项目,即开发新的物理知情机器学习方法,这有助于塑造其基本理念。她强调,利用能源部(DOE)国家能源研究科学计算中心(NERSC)的大量GPU资源对于开发和训练大规模数据集模型至关重要。
通过同时使用多个GPU,该团队在Open Catalyst数据集上取得了最佳性能——这是一项了不起的成就,特别是作为唯一一个以明显更少的资源做到这一点的非科技公司团队。能源部用户设施NERSC位于伯克利实验室。
来源:AI中国一点号