CardioGenAI:基于机器学习的药物再设计框架,以降低 hERG 风险

360影视 欧美动漫 2025-03-20 19:57 4

摘要:在新药研发过程中,hERG 通道抑制与 QT 间期延长及心律失常密切相关,许多潜在药物因此被迫终止开发。为了解决这一问题,耶鲁大学和辉瑞公司的研究团队开发了一个基于机器学习的框架CardioGenAI,能够精准预测化合物对hERG、NaV1.5和CaV1.2离

在新药研发过程中, hERG 通道抑制与 QT 间期延长及心律失常密切相关,许多潜在药物因此被迫终止开发。为了解决这一问题,耶鲁大学和辉瑞公司的研究团队开发了一个基于机器学习的框架CardioGenAI,能够精准预测化合物对hERG、NaV1.5和CaV1.2离子通道的影响,设计在降低hERG风险的同时保留原有药理活性的分子。CardioGenAI作为一个开放源码工具,不仅可用于优化潜在药物的心脏安全性,挽救因hERG毒性受限的研发项目,还能作为高效的虚拟筛选方案,助力新药设计,加速从计算机模拟到临床应用的转化。

CardioGenAI框架结合了生成模型与判别模型,用于重新设计具有hERG活性的化合物,以减少其对hERG通道的抑制作用,同时保留原有的药理活性。该框架采用Transformer解码器模型,基于一个包含约500万条有效SMILES字符串的数据集进行训练。该数据集来源于ChEMBL33、GuacaMolv1、MOSES和BindingDB等公开数据库。训练后的模型能够在指定的分子骨架和物理化学性质条件下生成有效化合物。对于输入的 hERG 活性化合物,生成过程会依据其骨架和物理化学属性进行优化(图1)。随后,生成的化合物将根据其对 hERG、NaV1.5 和 CaV1.2 通道的活性进行筛选。具体而言,框架通过分类模型筛选出 hERG 非抑制剂(pIC50 ≤ 5.0),或利用回归模型筛选出活性处于特定 pIC50 值范围内的化合物。

所有筛选后的候选化合物都会经过进一步的结构冗余性处理。首先,利用RDKit描述符模块计算每个化合物的209个二维化学描述符,并通过计算每对描述符之间的互信息来去除冗余描述符。随后,计算输入分子与每个筛选后候选化合物之间的余弦相似度,从而识别出与输入化合物在化学结构上最相似的候选分子。

图1 CardioGenAI框架

如图2所示,每个化合物通过三种不同的表征方式进行处理:首先,使用双向Transformer从SMILES字符串中提取256维特征向量,捕捉分子结构的语法信息;其次,采用摩根算法生成1024位扩展连接指纹(ECFP4),以表示分子的拓扑结构;最后,将化合物转化为图表示,其中节点代表原子,边代表化学键。每个节点的特征包括原子类型、极性、氢键受体/供体、芳香性等信息。SMILES特征向量和ECFP4指纹分别通过两层前馈神经网络进行处理,而图表示则通过图注意力网络(Graph Attention Network, GAT)进行处理,节点特征通过自注意力机制进行加权聚合。所有表征后的特征会被拼接在一起,并通过两层前馈神经网络进行最终预测。

图2 分子表征方式

与其他已有的预测模型相比,该模型在hERG基准测试的二分类任务中表现更优,验证了其在CardioGenAI框架中的优势。同时,该模型在NaV1.5和CaV1.2的基准测试中也展现出良好性能。作者进一步利用DrugCentral数据库中的FDA批准药物对模型进行评估,在1692种药物中,模型预测504种为hERG阻滞剂、764种为NaV1.5阻滞剂、400种为CaV1.2阻滞剂,且预测结果与已知药物的作用机制高度一致。此外,模型鉴定出11种hERG pIC50预测值超过7.0的药物,其中大多数预测值与实验结果一致,仅少数因训练集中高pIC50样本不足而存在偏差。虽然CardioGenAI 框架的判别模型具备良好预测性能,但受实验数据差异和训练数据偏倚影响,可能存在预测精度上限及泛化能力限制。

表1 分类模型与其他现有模型在hERG、NaV1.5和CaV1.2上的评估结果

训练数据集结合了来自ChEMBL33、GuacaMol v1、MOSES和BindingDB的所有有效SMILES字符串,最终数据集包含约550万条SMILES字符串。组合后的数据集最初包含196个唯一标记的词汇表。去除了包含至少一个在数据集中出现次数少于1000次的token(元素)的SMILES字符串,这些通常包含稀有过渡金属或同位素。99.99%的SMILES包含133个或更少的tokens,为提高计算效率,删除超过133个tokens的SMILES,少于133个SMILES则使用填充token进行补齐,并添加了开始token“[CLS]”和结束token“[EOS]”。数据集被随机划分为训练集(95%)和验证集(5%)。

生成模型包括自回归Transformer双向Transformer。自回归Transformer考虑了SMILES字符串、分子骨架和物理化学属性,而双向Transformer仅考虑SMILES字符串。

Pimozide是FDA批准的抗精神病药物,主要用于治疗Tourette综合症及其他精神疾病。尽管具有药效,但pimozide会引起QT间期延长和室性心律失常,且与患者的突发死亡事件相关。研究表明,pimozide对hERG通道具有较高的亲和力,IC50值约为18nM,提示它可能通过与心脏钾离子通道结合导致不良心脏反应。因此,开发更安全的替代药物,降低其hERG活性,同时保留药效,成为亟待解决的挑战。

本研究采用CardioGenAI框架,通过重新设计pimozide分子来减少其对hERG的抑制作用。作者以pimozide的分子骨架和物理化学特性为基础,生成了一系列新的化合物,并通过PCA分析确认这些化合物在物理化学性质上与pimozide高度相似,但hERG活性显著降低。最终筛选出100个符合条件的化合物,其hERGpIC50值范围从4.64到6.00,平均值为5.59,成功实现了降低hERG活性的目标(图3)。

图3 CardioGenAI 框架应用于Pimozide的优化

进一步的数据库比对发现,筛选出的100个化合物中,有一个名为fluspirilene的化合物,如图4所示,其属于与Pimozide相同类别的药物(苯基甲烷类),在hERG pIC50值上显著低于Pimozide,实验值为5.638,进一步验证了CardioGenAI框架在药物优化中的巨大潜力,能够在保持药物药理特性的同时,显著降低hERG活性

图4 fluspirilene与Pimozide性质对比

除了pimozide,作者还将CardioGenAI框架应用于nintedanib、ibutilide、halofantrine和astemizole等药物,结果表明,该框架能够针对每种药物成功生成理化性质相似且hERG通道活性显著降低的化合物

此外,考虑到调控NaV1.5和CaV1.2通道活性可能有助于缓解hERG通道阻滞引发的致心律失常风险,作者评估了CardioGenAI框架在调控NaV1.5和CaV1.2通道活性方面的能力。通过针对不同药物设定四种优化目标(提高或降低NaV1.5/CaV1.2活性),结果显示,该框架能够成功优化心脏离子通道活性至少一个数量级,同时保持化合物的理化性质不变(图5)。

图5 CardioGenAI 框架应用于NaV1.5和CaV1.2的优化

参考文献

Kyro GW, Martin MT, Watt ED, Batista VS. CardioGenAI: a machine learning-based framework for re-engineering drugs for reduced hERG liability. J Cheminform. 2025;17(1):30. Published 2025 Mar 5. doi:10.1186/s13321-025-00976-8

数据和代码

来源:科学你我他

相关推荐