程俊&汤富杰团队Nat. Comput. Sci.: 建立基于深度学习的核磁化学位移预测的统一基准和框架

360影视 日韩动漫 2025-03-29 09:10 2

摘要:近日,厦门大学、嘉庚创新实验室 AI4EC Lab、北京科学智能研究院与深势科技联合研发的NMRNet深度学习框架在核磁共振(NMR)光谱解析领域取得重要进展,相关成果以“Toward a unified benchmark and framework for

近日,厦门大学、嘉庚创新实验室 AI4EC Lab、北京科学智能研究院与深势科技联合研发的NMRNet深度学习框架在核磁共振(NMR)光谱解析领域取得重要进展,相关成果以“Toward a unified benchmark and framework for deep learning-based prediction of nuclear magnetic resonance chemical shifts”为题发表于Nature Computational Science。该框架通过新颖的SE(3) Transformer架构,成功实现了对液态和固态NMR化学位移的高精度预测,为分子结构解析和材料设计提供了强有力的工具。该项研究成果的第一作者为厦门大学化学化工学院硕士生徐凡杰,第二作者为加州大学戴维斯分校郭文韬博士(现为加州理工学院博士后),通讯作者为厦门大学程俊教授和汤富杰副教授、深势科技算法研究员高志锋。合作者包括嘉庚创新实验室副研究员王锋,以及深势科技算法研究员么琳和汪鸿帅。该研究受到田中群院士和鄂维南院士的指导,并得到北京科学智能研究院院长张林峰的支持。

研究背景

核磁共振(NMR)技术作为分子结构和动力学研究的重要工具,广泛应用于化学、生物学和材料科学领域。NMR的化学位移是反映分子局部环境和原子间相互作用的重要参数,因此准确预测化学位移对于NMR谱图的解析、分子结构的修正以及构型的确定至关重要。然而,传统的化学位移预测方法在处理复杂分子结构时,往往面临准确性与效率之间的矛盾,尤其在分子具有复杂拓扑结构或在液态、固态等不同状态下时,传统模型难以全面考虑所有因素,导致预测精度不足。

随着深度学习技术的不断发展,研究人员开始尝试将其应用于NMR化学位移的预测,以提升模型的准确性和效率。深度学习方法,尤其是图卷积网络(GCN)和等变消息传递神经网络(MPNN),在液态NMR预测中已显示出比传统方法更高的精度,并能够较好地处理分子结构的复杂性。然而,这些液态NMR模型通常忽略了分子间的相互作用,尤其是溶剂-溶质相互作用,尽管已经有些研究尝试将分子动力学模拟和计算结合进来以弥补这一不足。在固态NMR中,模型通常需要考虑晶体的周期性边界条件(PBC)。一些基于密度泛函理论(DFT)计算的机器学习模型已在固态NMR预测中取得了一定的进展,显示出较高的效率和精度。然而,目前现有的模型多针对液态或固态NMR进行单一状态的预测,往往未对其通用性进行充分验证,仍存在局限性。

研究内容

图1: NMRNet框架示意图。左侧:数据准备模块,提供结构和NMR数据;右侧上方:预训练模块,利用结构信息进行自监督学习;右侧中部:微调模块,进行有监督的NMR化学位移预测;右侧下方:推理模块,将模型应用于多种实际任务。

此研究中,厦门大学、嘉庚创新实验室 AI4EC Lab、北京科学智能研究院与深势科技联合研发了NMRNet框架,如图1所示。通过预训练和微调范式,结合对分子表示学习框架Uni-Mol中SE(3) Transformer架构的适应性调整,成功实现了对液态、固态和气态系统的统一建模。相关成果以在线应用和开源软件形式对外发布(见文末)。

该研究在数据准备阶段收集了结构数据和核磁数据,提取3D结构信息并将其转化为模型输入。研究团队进一步通过对实验数据的广泛清理和验证,构建了一个标准化的基准数据集nmrshiftdb2-2024,为推动NMR化学位移预测的研究提供了宝贵的资源。在预训练阶段,对于液体核磁部分,研究团队沿用了Uni-Mol之前的预训练权重。而对于固体核磁部分,研究团队又利用超过480万个晶体结构数据进行自监督学习,从而获得高效的原子环境表示,有效缓解了标注数据稀缺的问题。在微调阶段,NMRNet通过利用不同状态的数据进行核磁预测任务的训练,并且能够支持单元素预测和多元素同时预测。在多个基准数据集中,NMRNet的预测结果在多个评价指标上均取得优异表现,充分验证了模型的高精度和可靠性。此外,NMRNet不仅提供数值预测,还可应用于NMR谱峰归属和构象确定等关键任务,为结构-光谱关系的深入解析提供了新途径。

图2: NMRNet泛化能力的评估。(a)来自nmrshiftdb2-2018(分子中原子数≤64)的测试集和来自nmrshiftdb2-2024(分子中原子数≥70)的额外测试集的预测误差,按分子中原子数分组。(b)展示NMRNet性能的两个分子。(c)比较(b)中两个分子的预测化学位移(红色)与实验化学位移(蓝色):上方图显示1H NMR,下方图显示13C NMR。

为进一步验证NMRNet的性能,研究团队进一步将其应用于更复杂的分子体系,以测试其泛化能力和鲁棒性。研究团队从nmrshiftdb2-2024数据集中筛选了原子数超过70的分子作为测试集,这些分子的复杂度显著高于此前使用的nmrshiftdb2-2018数据集(最大原子数为64)。实验结果显示,随着分子原子数的增加,NMRNet的预测误差并未出现显著变化(如图2a)。当测试集为所有原子数超过70的分子时,预测结果与实验值的相关性尽管与nmrshiftdb2-2018测试集相比精度略有下降,但预测结果与实验值仍呈现高度相关性,表明模型几乎不存在过拟合现象。研究团队还测试了原子数超过100的分子,预测精度没有进一步降低。这一结果再次验证了NMRNet在复杂分子体系中的卓越性能。为全面评估NMRNet的性能极限,研究团队从数据集中提取了两个原子数超过150的超复杂分子(如图2b),并预测了它们的1 H和13C NMR谱(如图2c)。尽管这些分子结构极为复杂,NMRNet的预测结果依然保持高精度,展现了其在极端情况下的强大鲁棒性。

图3: NMRNet的结构表示。(a)预训练的NMRNet和(b)微调后的NMRNet使用t-SNE方法展示P2型Na2/3(Mg1/3Mn2/3)O2 中所有Na⁺的局部结构表示及其与化学位移的关系。(c)从Transformer的64头注意力机制结果中提取每个中心原子(表示为Na1)与其局部环境(Na13 Mg8 Mn16 O39)之间的相互作用信息,每个头的结果表示为单独的一行,这些结果随后被拼接在一起。相同元素根据它们与中心原子的距离按升序排列。可视化中颜色越深表示中心原子与其局部环境之间的相关性越强。(d)Na2/3(Mg1/3Mn2/3)O2 的一个单位晶胞。(e)从(d)中对应单位晶胞的无限晶体结构中提取的Na的局部环境。

此外,研究团队展示了NMRNet在表征复杂材料局部环境中的强大能力。图3a-b展示了研究团队对P2型Na₂/₃(Mg₁/₃Mn₂/₃)O₂中所有Na⁺的局部结构和化学位移关系的分析结果。研究团队发现,经过预训练的NMRNet能够初步区分不同化学位移的结构表示,而微调后的模型在区分能力上显著提升,进一步证明了微调后的NMRNet在精准表征局部环境方面的有效性。图3c可以看到,研究团队还利用Transformer模型的64头注意力机制,深入探索了Na⁺与其局部环境中其他原子之间的相互作用。通过可视化原子交互,发现Na⁺与Mn⁴⁺离子之间的强烈相互作用对材料的电势和电子环境起到了重要影响,这为理解材料的电子结构提供了新的视角。该研究为无先验化学知识的原子级相互作用分析提供了新的工具,有助于更好地解读NMR谱图,并推动材料科学中结构与性质关系的进一步研究。

使用指南

为了帮助研究人员快速对论文所提出的方法进行测试和验证,NMRNet 团队将相关成果以开源代码和在线应用的形式进行发布。研究人员可以通过以下网址访问该应用:https://ai4ec.ac.cn/apps/nmrnet 。

NMRNet 在线应用依托于嘉庚智算中心提供的算力支持,允许用户以网页的形式提交结构并快速得到预测结果,预测结果以可视化图表的形式进行呈现,并允许用户下载相关的预测和结构数据进行进一步分析。

同时,NMRNet 相关代码也已集成到 ai2-kit 工具包中。ai2-kit 是由程俊教授课题组和AI4EC Lab所开发和维护的开源计算化学工具包,旨在帮助研究人员将人工智能加速从头算研究范式快速应用到相关课题中。研究人员可以根据以下文档在个人电脑或者高性能计算集群上安装和配置 ai2-kit 对 NMRNet 进行测试和验证:https://github.com/chenggroup/ai2-kit/blob/main/doc/manual/nmrnet.md 。

总结与展望

NMRNet的推出为核磁共振光谱解析提供了全新的解决方案,其通用性和高精度预测能力将助力科研人员在分子结构阐明和材料设计领域取得更多突破。随着技术的不断完善,NMRNet有望成为化学和材料科学研究中的重要工具。

研究团队将在未来对NMRNet不断进行迭代升级,进一步优化模型的泛化能力,以应对更复杂的化学环境。诚邀各位学者和研究人员试用并提出宝贵意见,共同推动NMR光谱解析技术的发展。

致谢

研究团队感谢任英赫和张佳慧在论文封面设计方面的贡献,感谢唐煜航和邱江鹏对示意图提出的宝贵改进意见,并感谢刘云霈、邹竞祥、庄永斌、金昱丞、付飞、罗伟梁、周耕墨和王俊杰的深入讨论和宝贵建议,以及开发团队成员徐伟鸿等提供的应用开发支持。汤富杰副教授感谢中国国家重点研发计划(资助号:2024YFA1210804)和厦门大学的启动资金支持。程俊教授感谢中国国家自然科学基金(资助号:22225302, 92470201, 22021001, 92461312, 21991151, 21991150, 92161113, 22411560277)、中央高校基础研究基金(资助号:20720220009)、人工智能应用电化学实验室(AI4EC)、IKKEM(资助号:RD2023100101 和 RD2022070501)的支持。汤富杰副教授感谢中国国家重点研发计划(资助号:2024YFA1210804)和厦门大学的启动资金支持。

数据集链接

Notebook链接

AI4EC Lab

人工智能应用电化学联合实验室(AI4EC Lab)由嘉庚创新实验室与北京科学智能研究院于2022年合作创立。围绕“科学智能加速电化学科学和工程创新”的使命,联合实验室将致力于将人工智能与电化学理论相结合发展智能算法和机器学习模型,加速电化学基础创新,并驱动电化学应用的拓展。

AI4EC Lab正着力寻求三大方面的突破:

机器学习算法加速从头算分子动力学,发展电化学体系中复杂材料结构模拟和物化性质计算的解决方案,助力材料筛选设计;针对复杂电化学体系开发智能谱学计算和分析平台,建立“谱构”关系模型,助力电化学器件原位、工况表征检测;发展电化学器件跨尺度仿真策略结合微观材料计算和表征实验数据以及人工智能算法,推动器件智能优化。

ai4ec@xmu.edu.cn

来源:科学嘚吧嘚儿

相关推荐