摘要:今天给大家讲一篇2025年5月在nature communications上发表的一篇大语言模型助力药物设计的文章。传统药物设计方法往往缺乏准确的分子三维结构信息,限制了设计的效率和准确性。因此,作者提出了Token-Mol,一个自回归的药物设计方法,它将二维
今天给大家讲一篇2025年5月在nature communications上发表的一篇大语言模型助力药物设计的文章。传统药物设计方法往往缺乏准确的分子三维结构信息,限制了设计的效率和准确性。因此,作者提出了Token-Mol,一个自回归的药物设计方法,它将二维和三维结构信息有效地结合起来,并在多个下游应用中表现出色,显著提升了分子构象生成和属性预测的准确性。实验表明了该方法在真实世界药物发现中的有效性,极大程度地提高了候选药物发现的成功率和效率。
药物发现是一个复杂且耗时的过程,涉及从靶点识别到候选分子优化等多个阶段。近年来,人工智能技术已在药物发现领域产生了深远的影响,并加速了创新药物的研发进程。然而,药物发现中获取注释数据集的高成本仍然是该领域发展的一个主要障碍。为此,研究人员开始利用以BERT和GPT为代表的监督学习方法通过大规模无监督训练学习小分子或蛋白质的表征,然后对其进行微调,从而有效地解决了数据稀疏性和分布外泛化性能不足的挑战。现有的大规模分子预训练模型主要分为基于分子图和语言模型的两种方法。
语言模型如SMILES-BERT、MolGPT等方法将分子结构转化为文本序列,通过预训练方法来提取分子表征,该方法的优势在于处理分子生成及与化学相关的跨模态任务,但因序列化过程中丢失相应的空间信息。基于分子图的模型(如GEM、Uni-Mol等)基于图神经网络的架构,其优势在于融合几何特征,将原子作为节点、化学键作为边构建分子拓扑图,通过多种策略来捕捉分子内原子间相互作用,并在3D构象生成、蛋白质-配体相互作用预测等任务中表现突出。
然而基于化学语言的模型在处理3D结构信息方面存在不足,而基于分子图的模型在分子生成方面的应用相对较少。因此,设计一种能够解决所有药物设计任务,并易于与现有通用大语言模型集成的预训练模型,是当前研究的关键任务。
Token-Mol的整体工作流程主要分为四个关键阶段,首先,对输入的分子序列随机遮蔽部分内容,使得模型可以基于上下文预测被遮蔽的部分,并基于此策略对数据集进行预训练。其次,利用预训练模型在特定下游任务(如分子构象生成、靶向分子设计及多属性预测)的定制化数据集上进行微调。最后,通过强化学习方法,将分子生成过程建模为马尔可夫决策过程,并结合多维度奖励机制实现目标属性导向的分子优化(图1)。
图1 Token-Mol模型设计流程
3.1 分子构象生成任务评估
为了进一步评估Token-Mol生成分子构象的性能,作者选择了GEOM-Drug数据集的子集作为测试集,包含 1000个随机选择的分子,其构象数量分布从0到500,更接近整个数据集的分布情况。实验结果表明Token-Mol在生成分子构象的精确度方面表现优异,特别是在覆盖度精确度(COV-P)上,相较于Tora3D提高了大约11%,表明Token-Mol在生成高质量分子构象方面具有明显优势。然而,在召回率指标上,Token-Mol的表现略逊于GeoDiff和Tora3D。
此外,还进一步分析了各个评估指标的性能与可旋转键数量之间的关系,结果显示,随着可旋转键数量的增加,所有评估指标的性能都呈下降趋势,特别是在可旋转键数量超过10时,下降尤为明显。当生成具有较多可旋转键的分子构象时, Token-Mol相比于其他方法表现出了显著的优势(图2)。
图2 不同可旋转键数量的分子构象性能评估
3.2 基于口袋的分子生成任务评估
基于结构的药物设计非常重要,可以帮助药化专家快速识别与给定蛋白质结合口袋相匹配的高亲和力配体。为此,作者基于特定蛋白质口袋用Token-Mol生成相应的小分子配体,并与相应的基准方法比较其生成分子的质量。结果表明,Token-Mol在生成有效分子方面表现较优,并且生成的分子与训练集中的配体具有一定的相似性,同时具有足够的多样性。在结合亲和力方面,约47.2%的Token-Mol生成分子表现出更高的亲和力,优于现有的基准方法。此外,基于图的方法(如Pocket2Mol和TargetDiff)生成的分子中虽然Vina分数较低,但结构异常,不适合作为候选药物。除此之外,与其他模型相比,LogP、TPSA和分子量等指标分布的范围更为适中。
为了进一步衡量Token-Mol生成分子构象的准确性,作者用JSD指标进行评估,它用于量化模型生成的扭转角分布与真实分子扭转角分布之间的相似性。结果表明相较于基准方法,Token-Mol其生成分子构象的扭转角分布与真实分布方面具有显著优势,有助于快速筛选出有潜力的药物候选分子(图3)。
图3 基于口袋的分子生成质量评估
3.3 药物设计的实际应用
为了进一步评估Token-Mol在真实药物靶标上设计药物候选分子的能力,作者挑选了8个靶标,这些靶标分别来自激酶、G蛋白偶联受体(GPCRs)和病毒蛋白三个在药物发现中至关重要的蛋白家族。随后,作者采用不同的基准方法为每个受体生成了等数量的分子,并利用分子对接技术来识别具有高亲和力的潜在药物候选分子。
实验结果表明,在两个结构差异较明显的靶标(CDK2和ARA2A)口袋内,Token-Mol生成的分子类药性、可合成性等指标相较于其他方法具有显著优势。同样,与其他模型生成的分子相比,这些分子具有更合理的结构,且骨架具有一定的多样性。这进一步证明了Token-Mol在真实药物发现场景中识别潜在先导化合物的能力(图4)。
图4 多个靶标生成分子的质量评估
在药物发现领域,传统方法面临研发周期长、成本高昂、成功率低等挑战。此外,虚拟筛选方法受限于已有分子数据库,难以探索全新的化合物结构,缺乏新颖性。
为此,作者提出了基于大语言模型的药物设计方法(Token-Mol)。该方法能够高效地探索化学空间,快速生成具有结构多样性的分子,从而扩大了可探索的化学空间。实验表明Token-Mol在生成分子时能够更好地平衡新颖性及药物相关属性,从而提升了候选分子的质量。在真实靶点测试中,Token-Mol生成了更多具有亲和性、类药性和可合成性的分子。在分子构象生成方面,Token-Mol也优于其他方法,尤其在具有更多可旋转键的分子上表现更为突出。在分子属性预测任务中,Token-Mol的准确性与现有方法表现相当,并在回归任务中显著超越现有方法。
未来将扩充更多训练数据集、设计定制化的下游任务,从而提升现阶段药物研发的速度、效率和成功率,为现有的药物设计方法提供新思路。
参考文献
[1] Wang J, Qin R, Wang M, et al. Token-Mol 1.0: tokenized drug design with large language models[J]. Nature Communications, 2025, 16(1): 1-19.
来源:老郑的科学讲堂