摘要:过渡态(Transition State, TS)是化学反应的「关键帧」,就像群山中的最低隘口,决定了分子翻山越岭所需的能量和路径。然而,TS 的寿命仅有飞秒级(10⁻¹⁵ 秒),实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。
编辑 | ScienceAI
过渡态(Transition State, TS)是化学反应的「关键帧」,就像群山中的最低隘口,决定了分子翻山越岭所需的能量和路径。然而,TS 的寿命仅有飞秒级(10⁻¹⁵ 秒),实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。
传统的密度泛函理论(DFT)虽能提供高精度结果,但单次 TS 搜索可能消耗数十至数千 CPU 时,面对成百上千反应节点的复杂网络,计算成本高得难以承受。近年来,机器学习(ML)为 TS 搜索开辟了两条新路径:
机器学习原子间势(MLIPs)—— 通过神经网络学习势能面,将单点能量计算速度提升千倍,但依赖传统 TS 搜索框架;
生成模型——直接「脑补」TS 的 3D 结构,跳过路径搜索步骤,类似 AlphaFold 颠覆蛋白质结构预测。
尽管 MLIPs 在常见的能量与力误差等评价指标上不断刷新排名,这些模型在端到端 TS 搜索任务上的真实表现仍缺乏系统评估。
为了解各类 ML 模型在 TS 搜索中的实际表现,深度原理(Deep Principle)联合深势科技,清华大学,加州大学伯克利分校等机构开发了基于过渡态搜索框架 Yet Another Reaction Program(YARP),为两种不同策略的 ML 模型搭建了公平的「考场」,系统性地考察了 7 种 MLIPs(ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim和 Orb)和 SOTA 生成式模型 React-OT 在过渡态搜索中的表现。
相关研究以《Harnessing Machine Learning to Enhance Transition State Search with Interatomic Potentials and Generative Models》发布在预印平台 Chemrxiv 上。
论文链接:
端到端的过渡态搜索框架
图 1:基于 MLIPs 或 React-OT 的两种不同的端到端过渡态搜索方法。两种方法的主要区别在于 TS 优化的初猜结构构建方式不同,MLIP 通过最小能量路径构建,React-OT 则直接生成结构。
研究团队基于自动化过渡态搜索框架 YARP,为两类机器学习模型(MLIPs 和生成式模型)搭建了一套标准化测试流程(图 1),通过三个核心模块实现「算法剥离、能力聚焦」:
初猜生成:最小能量反应路径构建 (MLIP,图 1 ab)v.s. 最优输运生成(React-OT,a'b')
TS 优化:结合 Hessian 矩阵的过渡态优化
TS 验证:通过内禀反应坐标(IRC)计算确认「反应物-TS-产物」精确连通
这一化学反应 AI 「考场」具有如下三个亮点:
统一基准:首次在同一测试框架内集成多种 MLIP(DPA-2、MACE、CHGNet、LEFTNet 等)和生成模型,消除算法差异对结果的影响;
性能透明化:通过标准化流程,直接对比模型在结构优化、路径搜索、TS精度、计算效率等关键维度的表现;
应用导向:为反应性 MLIP 的开发提供系统全面的评测依据,助力下一代 AI 驱动的 TS 搜索方法。
MLIP 的系统性评估,谁在「高考」中拔得头筹?
图 2:基于Transition1x数据集,对比七种MLIPs(ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim, 和Orb)与GFN2-xTB的端到端过渡态搜索表现。分别从微调前后GSM成功率与Intended率、微调后能量与力的MAE、TS RMSD与能量误差方面进行对比,并探索显式指标与隐式指标的关系。
1. 考题设计:Transition1x 数据集
•Transition1x 作为「高考题库」,通过 Nudged Elastic Band (NEB) 方法采样了约 10,000 个反应,总共生成了 1000 万个结构数据点。这些反应包含高能反应(能垒>50 kcal/mol)、多键变化反应等传统 ML 反应预测模型的「盲区」,适合作为 TS 搜索任务的「官方备考指南」和「考试真题」。
•研究者按照反应对结构数据集进行划分,训练集与测试集的几何结构零重叠,杜绝「考前泄题」。
2. 评分标准:四大指标定义「优等生」
•GSM 成功率:能否用 Growing String Method 构建连通反应物与产物的反应路径。
•Intended 率:验证 IRC 的计算结果正确匹配目标 TS 的比例。
•TS 质量(RMSD):优化后的 TS 与 DFT 参考结构的几何偏差。
•能垒预测精度:根据优化后 TS 计算得到的活化能的误差,优质模型需要达到 1∼2 kcal/mol(接近 DFT 理论极限)。
3. 成绩单曝光:MLIP的「学霸」与「黑马」
预训练模型的「集体翻车」
•尽管预训练模型在 GSM 成功率方面表现很好,Orb(93%)的表现甚至超过 xTB(86%)。但所有模型的 Intended 率较低,MatterSim 在所有预训练模型中表现最好(27%),DPA-2 紧随其后(19%),但离 xTB(62%)仍有明显差距。这主要因为模型预训练数据缺乏反应数据,因而势能面预测严重失真。
微调后的逆袭者:LEFTNet
•从头训练的 LEFTNet 以 88% 的 GSM 成功率和 69% 的 Intended 率登顶,TS RMSD 仅 0.10Å,能垒误差仅 1.83kcal/mol。CHGNet 和 MACE-OFF23 的表现紧随其后。
4. 指标关联:揭开模型能力的「冰山之下」
显式与隐式指标的普适性关联
•相同架构不同训练轮次或不同架构的模型,能量和力的 MAE(显式指标)均与 TS 搜索的隐式指标(如 TS RMSD、势垒误差)对应。MAE 越低,TS 结构优化精度与能垒预测精度越高。
性能饱和与阈值效应
•当 MAE 降低至特定阈值后,GSM 成功率与 Intended 率趋于饱和。
力预测的不同策略大比拼
图 3:对比能量求导(autograd)、直接预测(direct-force)与对以直接预测的方式训练的能量进行求导(autograd*)的表现。
在机器学习势函数(MLIP)领域,力的预测存在两大技术路线:
Autograd 派:通过对势能面能量求导获取力,严格遵循物理规律
Direct-force 派:直接预测原子受力(N×3 矩阵),追求更高的计算效率和更精准的力的预测
策略性能对比:direct-force 策略在 GSM 任务中的成功率较高(93%),但由于其预测的力不满足物理约束,进一步求导得到的 Hessian 矩阵误差较大,并且丢失了对称性。因此,该策略最终仅找到 122 个 TS,远低于 autograd 策略的 786 个 TS,且 TS 质量也显著逊色。
然而,direct-force 策略仍具有独特优势,包括计算速度快、力预测精度更高,以及生成的 GSM 路径更多。因此,研究者指出,如果能在训练过程中直接预测 Hessian,或利用 Hessian 进一步优化 direct-force 模型的训练,或许能获得更优的模型。
生成式模型的「弯道超车」
图 4:以 LEFTNet 为例对比 MLIP 与 React-OT 的表现。示例(c-e)展示不同策略下可能搜索到的 TS 差异。
React-OT 三大颠覆性优势
•TS 初猜成功率 100%
•DFT 优化后匹配率 95%(显著高于 MLIP+DFT 的 84%)
•结构偏差仅 0.067Å(优于 LEFTNet 的 0.077Å)
MLIP 的不可替代性
•MLIP 提供了更精准的 TS 能量预测(MAE=0.77 kcal/mol,优于 React-OT 的 1.03 kcal/mol)
•相比专注于过渡态预测的生成式模型,MLIP 可在无需 DFT 的情况下验证 TS 并探索完整的反应机理
协同作战新范式:React-OT 生成初猜 → MLIPs 优化验证 → 效率精度双提升
•更少的计算耗时
•更高的 intended 率
更好的数据库,更深入的模型交融
数据基建:突破 CHNO 元素限制,覆盖更完善的反应空间的数据库将是 ML 更好的「老师」;
模型共生:擅长结构预测的 React-OT 与擅长能量预测的 MLIPs 可相结合,实现更高效准确的 TS 搜索;
技术突破:攻克 Hessian 矩阵预测难题,解决 direct-force 策略的「非保守场陷阱」。
当AI考场从能量预测这一「单一试卷」升级为能量、结构、路径的三维评价体系,传统量子化学驱动的过渡态搜索正式迈入「智能评测驱动迭代」的新纪元。
这场考试不仅暴露了目前模型的短板,更指明了数据-算法-理论联合作战的突围路径,而深度原理也将继续沿着这条路径持续打造更强大的化学反应生成式大模型。
来源:小圆科技园地