https://doi.org/10.1038/s42256-024-00930-7Open Catalyst 2020 dataset:摘要:The preprocessed data, formatted for compatibility with the training framework, is available via figshare:
The Open Catalyst 2020 Dense dataset and relevant data about the Open Catalyst hallenge 2023:
The preprocessed data, formatted for compatibility with the training framework, is available via figshare:
Code availability:https://doi.org/10.5281/zenodo.13917199 https://github.com/hoon-ock/multi-view
催化剂在能源转化与化学合成中扮演关键角色,其性能通常通过吸附能量来衡量。然而,现有的密度泛函理论(DFT)计算方法虽然精准,却计算成本高昂,限制了高通量催化剂筛选的效率。传统的机器学习方法,如图神经网络,虽然在能量预测中表现优异,但高度依赖于精确的原子坐标信息,而实验中常难以获得这些数据。在近日发布于《Nature Machine Intelligence》上的一项研究中,来自卡内基梅隆大学的研究团队提出了一种新颖的多模态学习方法,成功提升了催化剂吸附能量预测的精度。这项突破性的研究通过结合图神经网络(GNN)和基于Transformer的语言模型(LLM),为催化剂筛选和设计提供了重要的新工具。
为了解决上述挑战,研究团队开发了一种“图辅助预训练”(Graph-Assisted Pretraining)方法,将图神经网络的结构嵌入知识迁移至语言模型的潜在空间。这一方法显著降低了语言模型在吸附能量预测任务中的均方误差(MAE),改善幅度达到7.4%至9.8%。
研究中提出的核心模型CatBERTa基于RoBERTa架构,能够通过文本输入预测催化剂系统的能量,而无需依赖精确的原子位置。该模型使用一种自监督学习策略,将催化剂的化学信息与表面取向等数据转换为人类可读的文本表示,训练过程融合了数十万条基于DFT计算的能量标签。
研究进一步展示了大型语言模型在生成催化剂配置文本中的潜力。通过对CrystaLLM模型进行微调,研究团队能够生成与催化剂化学组成和表面方向匹配的文本描述。这些生成的文本可直接作为CatBERTa模型的输入,实现对催化剂能量的预测,摆脱了对具体几何结构的依赖。
本研究开创了一种全新的催化剂能量预测框架,将语言模型与图神经网络的优势结合,不仅提升了预测精度,还大幅扩展了模型的适用范围。研究团队表示,这一方法为催化剂设计的高通量筛选提供了新的解决方案,有望推动绿色能源存储和可持续化学过程的发展。
未来,研究团队计划进一步优化生成模型的精度,并构建集成预测与生成能力的统一平台,为催化剂设计和材料研究提供更全面的支持。
来源:小何科技讲堂