摘要:此外,ReactSeq 使研究人员能够获得通用且可靠的化学反应表征,实现在反应空间的准确导航,并有助于优化实验步骤和预测反应产量。该团队认为,ReactSeq 可以成为缩小化学与人工智能之间发展差距的桥梁。
编辑 | 白菜叶
随着人工智能的快速发展,大型语言模型越来越多地被用于应对各类科学挑战。这里有一个关键步骤:需要将特定领域的数据转换为用于语言建模的标记序列。
在化学领域,分子通常用分子线性符号表示,化学反应则被描述为反应物和产物的序列对。然而,这种方法无法捕捉反应过程中原子和键的变化。
中国科学院、Proton Unfold 等组成的联合研究团队提出了 ReactSeq,一种定义分子编辑操作以进行逐步化学转化的反应描述语言。
基于 ReactSeq,逆向合成预测的语言模型几乎在所有基准测试中始终表现出色,并在人机交互和可解释的人工智能中展现出极大潜力。
此外,ReactSeq 使研究人员能够获得通用且可靠的化学反应表征,实现在反应空间的准确导航,并有助于优化实验步骤和预测反应产量。该团队认为,ReactSeq 可以成为缩小化学与人工智能之间发展差距的桥梁。
研究以「Bridging chemistry and artificial intelligence by a reaction description language」为题,于 2025 年 5 月 13 日发布在《Nature Machine Intelligence》。
背景
以大型语言模型(LM)为代表的人工智能技术在自然语言处理领域取得了前所未有的突破,深刻影响着科研模式。在化学和制药领域,处理化学分子和反应的化学语言模型(CLM)这一重要概念应运而生。
与自然语言、蛋白质和基因不同,化学分子缺乏固有的序列表示。CLM 利用化学家定义的分子线性符号来学习和生成分子结构。最常用的分子线性符号是简化分子线性输入系统(SMILES)。
然而,这些符号仅能描述分子的静态结构,无法清晰表达化学反应中原子和键的动态变化,限制了其在反应预测中的应用。
现有方法(如两阶段设计的合成子转化模型)虽然提升了可解释性,但是同时也增加了复杂性,且受 SMILES 语法限制,无法详细描述原子级变化。此外,目前化学反应的向量表征仍面临挑战,自监督方法难以捕捉反应间相似性。
因此,开发新的化学反应描述语言是关键,需兼顾预测准确性、可解释性、可控性,并能生成高质量的反应表征从而支持下游任务。
化学反应描述语言
在最新的研究中,中国科学院、Proton Unfold 等组成的联合研究团队提出了一种名为 ReactSeq 的反应描述语言,旨在实现上述目标。
图示:整体概述。(来源:论文)
受逆合成过程的启发,ReactSeq 定义了产物结构以及将其转化回反应物分子所需的分子编辑操作 (MEO)。这些 MEO 包括化学键的断裂和改变、原子电荷的改变以及离去基团 (LG) 的添加等。
具体来讲,ReactSeq 由两部分组成:头部和尾部。头部包含目标分子的结构细节以及其原子和键的变化信息,描述如何将其转化为相应的合成子。尾部包含 LG 的结构及其与合成子的连接位置,描述如何将合成子完成为反应物。
在标准 SMILES 中,双键和三键的 token 可见,而单键的 token 则隐藏。但是,可以使用具有显式键的 SMILES 指定隐藏的 token。
通过将 SMILES 中的这些键标记替换为 MEO 标记(例如,使用感叹号“!”表示键断裂),研究人员得到了 ReactSeq 的头部,用于记录化学键的变化和断裂。逆合成中的某些目标分子不涉及重原子之间键的断裂或改变,而是直接连接到分子盖层。
在这种情况下,首先将原子标记转换为显式氢模式,例如将 O 更改为 [OH],然后再添加相应的 MEO 标记 (~)。此外,ReactSeq 还定义了手性、电荷和顺反异构体的变化。
图示:ReactSeq 的插图。(来源:论文)
为了获得 ReactSeq 的尾部,首先要识别目标分子中能够连接到 LG 的原子,即附着点。这些原子包括直接连接到 LG 或参与断键或还原的原子。每个附着点的 LG 都括在尖括号中,并根据其连接附着点的原子索引进行排序。按照这些步骤,即可获得一个标准的头尾 ReactSeq,并与目标分子的 SMILES 保持高度比对。
基于 ReactSeq 的模型性能
在基于 ReactSeq 的逆合成语言模型中,反应物并非从零开始逐个标记生成,而是通过这些中间态氧化单元 (MEO) 从产物分子转化而来。这确保了预测反应物和产物之间精确的原子映射,从而增强了模型的可解释性。使用 ReactSeq,普通的反式分子模型 (vanilla transformer) 可以在逆合成预测中取得最佳性能。
图示:使用 ReactSeq 进行可解释的逆合成预测。(来源:论文)
此外,ReactSeq 具有表示 MEO 的显式 token,从而支持人工指令的编码。测试结果表明,人类专家的提示可以显著提升模型的性能,甚至可以引导模型探索新的反应。此外,这些 MEO token 的嵌入提供了一种通用且可靠的反应表征。这些自监督表征可以自然地区分不同的反应类型并评估它们的相似性,从而促进相似反应的检索、实验步骤的推荐和反应产量的预测。
总而言之,ReactSeq 代表了化学语言的重大扩展,并赋予了化学语言模型(CLM)一系列极具潜力的新兴能力。这一进展使科学家能够应对许多此前难以企及的化学挑战,为化学人工智能基础模型的开发开辟了新的途径。
论文链接:
来源:旧城信箱