分子特性预测新框架来了!浙大侯廷军团队、匹兹堡大学跨通道学习

360影视 2025-01-09 17:44 3

摘要:然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。

编辑 | 萝卜皮

可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。

然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。

匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

它利用分子内的结构层次,通过跨通道的不同预训练任务嵌入它们,并在微调期间以特定于任务的方式聚合通道信息。

该方法在各种分子特性基准中表现出了竞争力,并在特别具有挑战性且普遍存在的场景(如活性悬崖)中具有强大的优势。

该研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」为题,于 2024 年 1 月 6 日发布在《Nature Communications》。

自监督学习(SSL)已成为一种流行的解决方案,它利用大规模、未注释的分子数据来学习化学空间的基础表征,这可能有利于下游任务。

然而,现有的分子 SSL 方法在很大程度上忽视了化学知识,包括分子结构相似性、支架组成以及在化学空间中操作时分子特性的上下文相关方面。它们还很难学习结构-活性关系中的细微变化。

当前的挑战

具体来说,现有方法中的两个主要缺点:

首先,在对比学习中,语义相似/不相似(即正/负)样本的传统公式并不适合分子图。大多数图对比方法通过图扰动(例如节点/边的添加/删除)生成正样本。但是,当应用于分子图时,化学有效性可能很容易受到质疑。

分子还可能通过扰乱重要基序(例如,破坏芳香环)而失去基本特征,从而将“语义”转移得很远。负样本(即不同的分子)通常被同等对待,这本质上忽略了分子结构关系和特定分子成分的存在。

其次,几乎所有现有的工作都试图学习一个与上下文无关的分子表征空间,目的是可以使它推广到各种应用中。然而,这与分子特性通常与环境相关的事实相矛盾,无论是从物理角度(例如周围环境)还是生物角度(例如与蛋白质的相互作用)。

换句话说,相同的 SSL 任务是否能够在微调中与具有不同特性的各种下游任务很好地保持一致仍不确定,从而导致学习差距。

多通道学习新方法

为了应对上述挑战,匹兹堡大学与浙江大学的研究人员提出了一个用于分子表征学习的提示引导多通道学习框架。k 个通道中的每一个由特定的提示标记引导,负责学习一个专用的 SSL 任务。

本质上,预训练模型能够学习 k 个不同的表征空间。在微调过程中,提示选择模块将 k 个表征聚合为一个复合表征,并将其用于下游分子特性预测。这涉及确定哪个信息通道与当前应用最相关,从而使表征依赖于上下文。

同时,研究人员设计了预训练任务以形成从全局视图到分子结构局部视图的插值。除了利用全局分子对比学习和局部上下文预测之外,他们还引入了支架对比距离的任务,强调了支架在影响分子特征和行为方面的基本作用。

由于支架通常被视为新化合物设计的起点,支架距离旨在将具有相似支架(通过支架不变扰动生成)的分子映射到表征空间中更近的位置。此外,它还会将具有不同骨架的分子分开,其中距离边距是根据结构组成差异自适应计算的。

该框架主要包含三个主要部分,不同于传统的分子预训练-微调范式:(1)提示引导的多通道学习,(2)具有自适应边距的对比学习,以及(3)支架不变的分子扰动。

图示:框架概述。(来源:论文)

整体框架使用 ZINC15 进行预训练,并在 MoleculeNet5 中的 7 个分子特性预测任务和 MoleculeACE 中的 30 个结合效力预测任务上进行评估。

通过学习利用来自不同通道的信息来应对不同的应用,该方法在两个基准测试中都超越了各种表征学习基准。更重要的是,新方法被证明能够更有效地应对活性悬崖的挑战,而竞争方法更容易受到负迁移的影响,从而导致性能大幅下降。

这表明,即使在预训练之后,这些方法可能仍然更多地依赖于表面模式,或者在微调过程中更容易受到知识遗忘的影响,从而导致它们难以解决需要对化学知识有细致理解的挑战性问题。

相反,该框架学习到的表征在微调过程中表现出了更强的保留预训练知识的能力,与其他基线相比,提供了更好的可转移性和稳健性。案例研究表明,即使仅依赖拓扑信息,该方法也有潜力识别导致活动悬崖的关键模式。

图示:表征空间探测。(来源:论文)

局限性

当然,也存在一些局限性。该框架的一个限制是需要更有效的提示权重优化机制。使用粗糙度指数初始化提示权重可能会导致性能不佳。由于粗糙度指数是针对整个化学空间的全局 QSPR 指标,因此它不考虑训练集和测试集之间的任何分布变化。

对于其他 QSPR 测量(例如 SALI、SARI),情况也是如此。因此,在指定分割下,最终表征性能可能与初始粗糙度值的相关性较低。

图示:结合效力预测。(来源:论文)

未来研究

未来研究有几个有趣的方向。一个有希望的方向是将不同的输入表征形式纳入框架。仅通过利用拓扑分子结构,该模型无法区分具有不同构象(例如,功能基团的方向或原子的手性)的分子成分,这可能会显著改变生化行为。

此外,还有其他先进的数据驱动技术可用于研究结构-活性关系 (SAR),这些技术可能与这里的框架兼容。

如,Manelfi 的《Molecular Anatomy》认为,从支架碎片化和抽象的网络聚类可以实现高质量的 SAR 分析。此类研究旨在将化学信息学知识转移到机器学习模型中,从而有可能提高模型的可解释性和稳健性。

更重要的是,该方法除了对药物发现具有直接影响,其分子表征稳健性可以进一步揭示其在化学其他子领域(如材料科学和环境化学)中应用的巨大潜力。

论文链接:

来源:居居的雾景

相关推荐