摘要:在同时优化七个目标时,PMMG 取得了 51.65% 的成功率,比目前最先进的算法高出 2.5 倍。并且,PMMG 能够生成与目标蛋白具有高对接分数且具有良好预测类药特性的分子。
编辑 | 萝卜皮
药物研发在寻找满足多个严格目标(例如结合亲和力、蛋白质靶标选择性和药物相似性)的新型候选药物方面面临越来越大的挑战。
现有的优化方法难以应对处理众多目标的复杂性,限制了分子设计的进步,因为大多数算法最多只能对四个优化目标有效。
为了克服这些局限性,浙江大学侯廷军团队提出了 PMMG 方法,利用蒙特卡洛树搜索(MCTS)有效地发现高维目标空间中分子设计任务的帕累托前沿。
PMMG 利用简化分子输入系统 (SMILES) 来表示分子,高效地在广阔的化学空间中探索,发现同时展现多种理想属性的分子。
在同时优化七个目标时,PMMG 取得了 51.65% 的成功率,比目前最先进的算法高出 2.5 倍。并且,PMMG 能够生成与目标蛋白具有高对接分数且具有良好预测类药特性的分子。
该研究以 「A Multi-Objective Molecular Generation Method Based on Pareto Algorithm and Monte Carlo Tree Search」为题,于 2025 年 4 月4 日发布在《Advanced Science》。
传统的药物设计方法涵盖靶点识别、先导化合物发现以及后续优化,但往往受制于高成本和冗长的周期。尤其是在先导化合物发现的初始阶段,通常需要投入大量的人力和物力来合成和筛选分子。深度学习技术的出现为药物开发领域带来了新的可能性。
虽然潜力巨大,但大多数模型生成的分子往往与训练数据高度相似,缺乏精准靶向目标分子的能力。因此,科学家迫切需要寻找新方法来开发生成模型,从而实现精准且有针对性的分子优化。
在最新的研究中,浙江大学侯廷军、潘培辰、康玉、Chang-Yu Hsieh 团队开发了用于分子生成的 PMMG(Pareto Monte Carlo Tree Search Molecular Generation)算法,该算法利用预训练的循环神经网络(RNN)模型作为分子生成器,并以蒙特卡洛树搜索(MCTS)为指导。MCTS 基于帕累托原则不断细化和优化搜索方向,探索广阔的化学空间,从而识别分子设计相关的帕累托前沿(Pareto Front)。
图示:PMMG 的工作流程。(来源:论文)
具体而言,首先训练一个 RNN 模型学习分子的 SMILES 表示规则,在扩展和模拟两个步骤中,通过预测 SMILES 下一个 token 的概率分布来生成分子。在生成过程中,MCTS 会构建搜索树,并迭代执行选择、扩展、模拟和反向传播四个步骤。基于中间节点的上置信界限(UCB)分数,MCTS 不断搜索和选择节点,直到遇到终止符号。
PMMG 性能评估
为了评估 PMMG 在分子生成过程中的有效性,团队在基准数据集上进行了广泛的实验验证。研究人员设计了七个评估目标,包括生物活性、溶解度、渗透性、代谢稳定性、毒性、合成可及性 (SAScore) 和药物相似性定量评估 (QED) 等,这些特性在药物设计中至关重要。
研究人员选取了几种当下最先进的方法与 PMMG 进行比较,并将它们分为两大类。第一类方法基于 SMILES 表示,包括 SMILES-GA、SMILES-LSTM、SMILES-VAE、REINVENT。第二类基于图的分子生成模型,包括 MARS、Graph-MCTS、Graph-GA。
他们使用每种方法,在相同条件下生成了 10 000 个分子,并基于以下评估指标将所提出的方法与基线方法进行了比较:超容量指标 (HV)、成功率 (SR) 和多样性 (Div)。除 PMMG 外,其他基线方法的结果均是通过运行 Gao 以及 Nathan 团队提供的公开代码所获得。
图示:在同时优化七个目标的情况下,八种不同的分子生成方法的比较。(来源:论文)
总体而言,PMMG 在三个关键指标(HV、SR 和 Div)上均优于所有基线。
在 HV 指标方面,PMMG 算法生成的帕累托前沿的 HV 达到了 0.569,比表现最佳的基线高出 31.4%。这表明 PMMG 更深入地探索了化学空间的帕累托前沿,展现出在生成跨多个目标的卓越分子方面更大的潜力。
在 SR 指标方面,PMMG 生成的分子成功率达到了惊人的 51.65%,远超其他基线的 2.5 倍。
图示:示例分子的性质预测。(来源:论文)
随后,研究人员针对 EGFR 和 HER2 进行了双靶点药物分子设计(两个靶点是治疗肺癌和乳腺癌等癌症的关键靶点),成功生成了对接得分和预测性质与拉帕替尼相当甚至在某些性质上超越拉帕替尼的分子。
结语
当前版本的 PMMG 在多目标分子生成方面取得了重大进展。通过同时有效地平衡和优化多种分子特性(例如效力、选择性和 ADMET 谱),PMMG 展现出强大的能力,能够满足药物发现过程中固有的复杂且往往相互冲突的需求。它提供了一个多功能且强大的工具,能够提高识别潜在候选药物的效率和准确性。
研究人员在论文里表示:PMMG 为未来药物设计和发现的进步铺平了道路,预计将整合更复杂的机器学习技术,并扩展化学空间探索。随着该模型的不断发展,它有可能彻底改变分子生成方法,为开发具有优化特性的新疗法助力。
论文链接:
来源:科学红灯区