图辅助多模态预训练框架用于催化剂筛选，登Nature子刊

摘要：尽管图神经网络在计算催化剂系统的能量方面表现出色，但它们严重依赖原子空间坐标。相比之下，基于 Transformer 的语言模型可以直接使用人类可读的文本输入，无需详细的原子位置或拓扑结构；然而，这些语言模型通常难以准确预测吸附构型的能量。

编辑 | KX

吸附能是一种反应性描述符，必须准确预测，才能有效地将机器学习应用于催化剂筛选。该过程涉及在催化表面上的不同吸附构型中找到最低能量。

尽管图神经网络在计算催化剂系统的能量方面表现出色，但它们严重依赖原子空间坐标。相比之下，基于 Transformer 的语言模型可以直接使用人类可读的文本输入，无需详细的原子位置或拓扑结构；然而，这些语言模型通常难以准确预测吸附构型的能量。

近日，卡内基梅隆大学的研究人员通过一种称为图辅助预训练的自监督过程，将其潜在空间与成熟的图神经网络对齐，从而改进了预测语言模型。该方法将吸附构型能量预测的平均绝对误差降低了 7.4-9.8%，将模型的注意力重新引导到吸附构型上。

在此基础上，研究人员建议使用生成式大语言模型为预测模型创建文本输入，而不依赖于精确的原子位置。这展示了语言模型在没有详细几何信息的能量预测中的潜在用例。

相关研究以「Multimodal language and graph learning of adsorption configuration in catalysis」为题，于 11 月 27 日发布在《Nature Machine Intelligence》上。

论文链接：

机器学习 (ML) 方法，尤其是图神经网络 (GNN)，已成为计算成本高昂的密度泛函理论 (DFT) 模拟的有效替代品。这可以加速高通量材料筛选的能量和力预测。基于 ML 的 DFT 替代模型在催化中的成功应用可以识别特定反应的最佳催化剂材料。

尽管 GNN 在催化领域的机器学习应用中取得了重大成功，但获取其输入数据可能具有挑战性，因为它们需要原子位置或拓扑。构建结构的图表示依赖于识别每个原子在特定接近度阈值内的最近邻。然而，实现如此精确的坐标可能很困难，这主要限制了 GNN 在理论研究中的适用性。

语言模型可以处理原子系统的文本描述，而不是用原子坐标构建输入。例如，MOFormer 模型将金属有机骨架 (MOF) 编码为文本字符串表示形式，称为 MOFid，与图表示不同，它包含有关构建块和拓扑代码的化学信息。

吸附能的识别是催化剂筛选中的关键反应性描述符。虽然语言模型有可能绕过对精确原子位置的需求，但其准确性仍然是一个问题。提高模型的准确性对于有效地将这种基于文本的方法应用于吸附构型能量预测任务至关重要。

在此，研究人员开发了一个多模态预训练框架，称为图辅助预训练，在共享潜在空间内将已建立的基于图的方法与新引入的基于文本的方法联系起来。引入此方法是为了提高吸附构型能量预测的准确性。该框架使用 RoBERTa 编码器进行文本处理，并使用线性回归头来预测催化剂系统能量。

图 1：模型训练框架的概述。（来源：论文）

此外，EquiformerV2 模型由于能够对精确的原子结构进行编码而被用作图编码器。在此框架中，文本和图嵌入在预训练期间都以自监督的方式对齐。随后，该模型经历微调阶段，在该阶段，使用从 DFT 计算中得出的能量标签以监督方式进行训练。重要的是，微调步骤完全依赖于文本输入数据，而不需要图表示。

研究进行两种类型的下游推理：一种是为了评估图辅助预训练的效果，另一种是为了证明该模型在没有精确了解吸附质-催化剂系统结构的情况下预测能量的能力。

首先，为了评估图辅助预训练对预测准确性的影响，研究人员对从 ML 弛豫结构派生的测试集字符串进行了预测。CatBERTa 模型以文本字符串作为输入，使用从 ML 弛豫结构派生的文本数据进行训练，以预测弛豫构型的能量。其次，为了说明该模型在不依赖精确结构的情况下预测能量的潜力，使用 LLM 生成晶体学信息文件 (CIF) 格式的指示性结构。这是通过提供吸附质和催化剂的化学成分和表面取向作为输入来完成的。生成的 CIF 被转换成与 CatBERTa 输入兼容的文本字符串。