摘要:今天给大家讲一篇2024年11月在bioinfomatics上发表的一篇关于分子生成的文章。大环肽能够靶向传统小分子药物难以结合的蛋白质,从而为治疗提供了新的策略。因此作者提出了一种计算方法(HELM-GPT),用于从头设计大环肽。该方法以GPT为基础模型,通
今天给大家讲一篇2024年11月在bioinfomatics上发表的一篇关于分子生成的文章。大环肽能够靶向传统小分子药物难以结合的蛋白质,从而为治疗提供了新的策略。因此作者提出了一种计算方法(HELM-GPT),用于从头设计大环肽。该方法以GPT为基础模型,通过强化学习策略,可以生成具有满足期望属性的大环肽分子。此外,在预训练过程中还引入了对比偏好损失,进一步提升了属性优化任务的性能。实验结果表明,在同时优化生成的肽分子的细胞通透性和KRAS蛋白结合亲和力方面,该方法相较于其他基准方法而言均取得较优的性能。因此,该方法针对细胞内蛋白的大环肽药物设计提供了有效建议,有望为开发新型靶向治疗开辟新的道路。
目前现有批准上市的药物仅能有效作用于少数与疾病相关的靶标。这主要是因为大多数靶蛋白缺乏明确的结合口袋,使得小分子药物难以与之结合。此外,许多与疾病相关蛋白位于细胞内部,而细胞膜的屏障作用阻止了大分子药物(如抗体)进入细胞内部。因此,即使这些蛋白与疾病的发展密切相关,现有的药物也无法直接对它们产生作用,从而限制了治疗效果。
然而大环肽因其显著的生物活性展现出了卓越的靶向性和与靶蛋白的结合能力,尤其在抗肿瘤方面,大环肽有可能通过被动扩散穿过细胞膜,这使得它们能够针对那些“不可成药”的蛋白提供新的治疗选择。不过,传统方法在面对大环肽的化学结构复杂性时,往往难以满足快速发展的药物开发需求。相比之下,利用数据驱动的深度学习方法在该方面具有显著的优势,如通过合理设计实现刚性折叠的大环肽,提高药物的稳定性和疗效。因此,计算方法的提出为大环肽药物的发现和优化提供了新的方向。
受到语言模型GPT的启发,作者提出了一种名为HELM-GPT的方法用于设计环状肽。图1b为HELM-GPT的核心架构,它由八个GPT解码器模块堆叠而成。首先,从ChEMBL数据库中提取已知生物分子的HELM(分层编辑语言)序列,然后用该序列对GPT模型进行预训练,使模型学习HELM语言的规则和结构。在微调阶段,考虑选择合适的目标属性,如细胞通透性和KRAS蛋白结合亲和力,作为环状肽设计的优化目标,并利用强化学习的方法来指导GPT生成具有改善细胞通透性和KRAS结合亲和力的分子(图1d)。通过不断用高质量的分子来更新生成模型的参数以提高生成具有期望得分的HELM序列的可能性。此外,还将其与一些其他方法(如LSTM、遗传算法等)进行比较,突出其在环状肽通透性属性优化方面的优势(图1f)。该方法的提出将有助于药化专家快速开发具有特定生物活性的新型药物分子。
图1 HELM-GPT模型架构
3.1 细胞可通透性评估
作者又构建了一个回归模型,并使用了SMILES表示作为输入,以预测生成的肽分子透过细胞膜的能力,并选择了多种基准方法(包括基于序列、基于分子图等)进行性能评估。其中数据集源自于CycPeptMPDB数据集,包含7451个环状肽。其中,5113个肽具有高通透性(>−6),2338个肽具有低通透性(HELM-GPT模型能够探索更广阔的化学空间,并为特定目标属性设计结构新颖的生物大分子(图2)。
图2 生成分子的质量评估
3.2 KRAS蛋白结合肽设计
KRAS基因的突变频率较高,经常导致细胞生长和分裂,从而促进癌症的发展。为了高效探索和优化具有高亲和力和特异性的治疗分子,以实现对癌症的精准治疗,作者用HELM-GPT设计能够与KRAS蛋白结合的肽分子。首先从一项专利中收集了2757个肽与KRAS的结合亲和力(Kd值)数据,通过评估了不同的预测模型在该任务上的性能,结果显示,使用分子指纹作为输入的XGBoost模型表现最佳,且在测试集上的Spearman相关系数达到0.82。为了进一步生成具有高KRAS Kd值的肽分子,还使用强化学习方法来进一步微调HELM-GPT模型,即挑选出训练数据集中预测Kd值最高的1000个分子子集用于重新训练模型从而指导HELM-GPT生成更多高质量的肽分子。就合成可及性和KRAS Kd值的分布曲线来看,结果显示这两者都向期望的区域移动,随着迭代次数增多,高质量分子的数量也在不断增加。由于HELM-GPT模型受限于预定义的可合成单体HELMS空间,也在一定程度上增加了其生成的肽分子易于合成的比例(图3)。
图3 KRAS蛋白结合肽的生成质量评估
作者研发了一种名为HELM-GPT的模型用于设计大环肽的药物分子,该模型通过学习训练数据集的属性分布,能够生成有效的HELM序列,并利用强化学习进行属性优化。在微调阶段,通过逐步优化策略来同时提升生成肽分子的细胞通透性和KRAS靶点的结合能力,并相较于其他基准方法均取得了较优的结果。可以发现尽管受限于预定义的单体HELM空间,HELM-GPT仍能生成具有更优预测属性的分子。此外,随着相关数据的积累,该方法不仅限于设计肽类分子,还能用于其他复杂分子的设计,有望在药物开发领域发挥其广泛的应用。
参考文献
[1] Xu X, Xu C, He W, et al. HELM-GPT: de novo macrocyclic peptide design using generative pre-trained transformer[J]. Bioinformatics, 2024: btae364.
来源:小鹏聊科学