LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

摘要:生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。

编辑:萝卜皮

生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。

在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。

CrystaLLM 经过数百万个 CIF 文件的训练,专注于通过文本对晶体结构进行建模,它可以为训练中未涉及的各种无机化合物生成合理的晶体结构。

这种方法挑战了传统的晶体表示,并展示了 LLM 学习有效晶体化学模型的潜力,这将加速材料科学的发现和创新。

该研究以「Crystal structure generation with autoregressive large language modeling」为题,于 2024 年 12 月 6 日发布在《Nature Communications》。

在材料科学的计算机辅助发现过程中,晶体结构预测(CSP)方法常用于探索化学系统中的新材料。这类方法旨在通过特定的物理条件推导出给定化学成分的基态晶体结构。

CSP 通常依赖于高计算开销的从头计算技术,其中通过生成候选结构来优化搜索过程。随着机器学习和数据科学技术的进步,生成模型,如自动编码器和生成对抗网络,已被应用于晶体结构的生成。

虽然大语言模型(LLM)在自然语言处理和化学成分生成中取得了显著成果,但是训练 LLM 来生成晶体结构的文本表示仍然是一个相对较新的探索领域。

CrystaLLM

雷丁大学的研究团队报告了专门为晶体生成而设计的 LLM —— CrystaLLM 。该模型专门针对无机晶体结构的文本表示进行训练,特别是晶体学信息文件 (CIF) 格式,而不是仅仅依赖于自然语言语料库或化学成分。

Luis M. Antunes 在雷丁大学攻读博士学位期间主导了这项研究,他说:「预测晶体结构就像解决一个复杂的多维拼图,而拼图碎片是隐藏的。预测晶体结构需要大量的计算能力来测试无数种可能的原子排列。」

这种方法基于两个猜想:

首先,符号序列(即标记)是许多预测任务(包括涉及化学结构的任务)的适当表示方式。其次,LLM 不仅学习标记的条件概率分布,还可能通过自回归预训练学习一个有效的世界模型,即目标现象的因果过程。

近期的研究表明,经过棋盘游戏训练的 LLM 能够追踪棋盘状态并表示领域特定的抽象概念。由此可推测,经过训练的模型也许能学习晶体结构中隐含的化学性质,并借鉴原子世界的模型生成未知结构。

CrystaLLM 是一个基于 Transformer 的 CIF 文件格式的解码器专用语言模型,在数百万个 CIF 文件的语料库上进行自回归训练。该模型不是在从 CIF 文件得出的结构表示上进行训练,而是直接在 CIF 文件的标准化和标记化文本内容上进行训练。

图示:CIF 文件的大型语言建模。(来源:论文)

在训练期间,模型会从 CIF 文件语料库中获取一系列标记,并负责预测每个给定标记后面的标记。模型训练完成后,便可用它来生成新的 CIF 文件,条件是某些起始标记序列。生成 CIF 文件涉及从模型中反复采样标记,并对累积的生成内容进行调节,直到达到终止条件。

经测试,CrystaLLM 成功生成了逼真的晶体结构,甚至对于以前从未见过的材料也是如此。

目前的晶体结构生成方法通常依赖预定义模板,在空间群约束下通过程序化或机器学习辅助的原子替换和晶胞调整来生成结构,并通过调整替换概率和范围来提高结构多样性。与此不同,CrystaLLM 通过自回归训练吸收隐式模板,自动选择适合给定组合物的模板。

图示:各种无机化合物的生成结构。(来源:论文)

此外,该模型还能自动调整晶胞参数,以适应晶胞中的原子,并根据训练过程中未显式遇到的模板生成新结构。与最近报道的基于扩散的晶体生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不仅在多个方面优于现有基准,还在灵活性(如对称性输入)和微调潜力方面展现出额外优势。

「CrystaLLM 通过研究数百万种已知的晶体结构来理解模式并预测新的模式,从而取得了突破,就像一个专业的解谜者,他能识别出获胜的模式,而不是尝试每一个可能的举动。」Antunes 说。

图示:无条件生成的新结构。(来源:论文)

局限性

目前该方法仍有几个局限性。

首先,数据集中的任何结构都没有位点占有无序性(分数位点占有率)。因此,CrystaLLM 无法生成无序结构,并且可能无法成功生成暗示无序结构的晶胞组成和空间群组合的结构。

另一个限制是数据集的 CIF 文件并非全部使用同一级别的理论创建。训练集来自使用不同设置、函数等的 DFT 源的组合,在某些情况下,这可能会使模型难以学习细胞组成和详细结构之间的一致关系。

未来工作

尽管如此,研究人员表示,他们相信 CrystaLLM 将成为晶体结构生成的有用工具,晶体结构生成正迅速成为大规模材料发现和材料信息学的关键步骤。该团队计划探索微调模型以用于物理性质预测任务,例如预测晶格热导率,因为实验数据相对稀缺。

该模型的架构使其能够针对基于成分或基于结构的预测任务进行微调。这意味着 CrystaLLM 可能成为通用材料信息学模型的基础,该模型可用于生成任务,并针对需要成分或结构的属性预测任务进行微调。

如果该模型能够将其所学到的有关原子世界的知识转移到这些各种预测问题中,那么它可能被证明是一种与材料化学的许多方面相关的相当灵活的工具。

论文链接:

相关内容:

阅读报告全文,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所:2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成:十年回顾

《以人为中心的大型语言模型(LLM)研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来?世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学 、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

Deepmind:AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 人工智能篇

国际电联:迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织:2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等,AI 智能体:探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学:AIGC 发展研究 3.0 发布版 b 版

OpenAI:2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报 从复杂系统角度评估人工智能风险

复旦大学 大模型 AI 代理的兴起和潜力:综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告:《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会 德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德 全球灾难风险评估

斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频

华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)

CASA:2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS:2024 光伏应用趋势报告(英文版)

ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告(2024 - 2029 年)》

《军事自主系统:未来之路》美空军

空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

Artificial Intelligence Review:人工智能与物理学相遇的综述

麦肯锡:全球难题,应对能源转型的现实问题

欧米伽理论,智能科学视野下的万物理论新探索(研究论文)

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights:未来变革者:2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)

OpenAI o1 评估:AGI 的机遇和挑战(280 页)

世界知识产权组织:2024 年全球创新指数

美国白宫:国家近地天体防御策略与行动计划

上下滑动查看更多

来源:人工智能学家

相关推荐