AI研习丨基于人工智能的小分子药物先导优化

360影视 2025-01-10 20:45 2

摘要:摘 要:首先 针对基于人工智能的小分子药物先导优化的研究进展进行了回顾;然后根据数据任务场景将先导优化方法分为分子映射、分布匹配学习和分子局部搜索,归纳了先导优化的关键属性和模型评估标准;最后讨论了先导优化当前的应用和面临的挑战,并指出可解释性、多维度优化、模

文/夏宇航,王永康,王郅巍,章文

摘 要:首先 针对基于人工智能的小分子药物先导优化的研究进展进行了回顾;然后根据数据任务场景将先导优化方法分为分子映射、分布匹配学习和分子局部搜索,归纳了先导优化的关键属性和模型评估标准;最后讨论了先导优化当前的应用和面临的挑战,并指出可解释性、多维度优化、模型泛化性等先导优化研究方向。

关键词:人工智能;药物发现;先导优化

1 研究背景

新药的研发 (research & develop-ment,R&D) 是一个长周期、高成本和高风险的过程。一种创新药物从研发到投放市场大约需要10~15年的时间,平均成本约为10~20亿美元,临床成功率约为10%。随着可用靶点不断被开发,发现新的靶点越来越困难,新药的研发难度逐渐加大,研发成本呈现逐年上升的态势。面对新药研发的挑战,思考和探索高效的药物研发方法成为一种必然。

如图1所示,药物研发分为三个阶段。第一阶段是药物发现,主要是筛选出可进入临床试验的候选药物,包含五个步骤:①药物靶点确定;②从分子库中筛选出对靶点具有初步活性的苗头化合物(hit);③对苗头化合物进行初步验证和优化,得到具有类药性的先导化合物(lead),该过程被称为先导药物的发现(hit-to-lead);④对先导化合物进一步优化,使之成为具有成药性的理想候选药物,这一过程被称为先导化合物的优化(lead optimization),简称为先导优化;⑤通过临床前研究初步验证候选药物的安全性,验证通过后的药物进入临床阶段。第二阶段是药物开发,通过三期临床实验验证候选药物在人体实验中的有效性、安全性是否达到上市条件。第三阶段是上市,经过美国食品药品监督管理局(FDA)认证之后,药物就可以上市发行,上市后通过IV期临床获得药物长期安全性和有效性等其他信息。

据统计,临床药物研发失败主要有缺乏临床疗效(40%~50%)、不可控的毒性(30%)、成药性差(10%~15%),以及市场需求不足和产品规划策略不善(10%)这四种原因,数据表明90%的失败原因都是药物性质不合理,难以满足安全、有效、稳定和质量可控的要求。药物分子的结构决定了药物的性质和临床效果,先导优化旨在改善药物性质,对于新药研发的成败至关重要。然而,传统的先导优化方法很大程度上依赖药物化学家的知识与经验,试错成本高,优化周期长。近几年,随着人工智能技术的蓬勃发展,人们尝试开展基于人工智能技术的药物研发,该技术在药物研发各个环节都发挥了重要作用,尤其在先导优化环节表现出巨大潜力,有望提升先导优化的效率与成功率,降低研发费用和试错成本。

相较于大分子药物,小分子药物的研发工艺更加成熟,目前90%的药物都是小分子药物。本文主要介绍基于人工智能的小分子药物先导优化方法及其应用。

2 人工智能药物先导优化方法

传统先导药物优化方法包括生物电子等排替换、前药原理、软药、硬药与孪药设计等,这些方法依赖于药物化学家的知识与经验人工构建结构-活性关系(SAR),通过分子化学修饰实现先导优化。但这类方法过于依赖专家知识,难以系统化和规则化,效率低且成本高。随着计算机技术的发展,上世纪80年代产生了计算机辅助药物设计的概念,研究者利用计算机与统计学的方法将SAR发展为定量构效关系(QSAR),用于指导后续的先导优化。近年来,随着大数据和人工智能技术的发展,人们尝试使用人工智能技术从大量数据中自动学习领域知识,指导药物先导优化,取得了令人瞩目的成果。

人工智能药物先导优化方法分为分子映射方法、分布匹配学习方法和分子局部搜索方法。

2.1 分子映射方法

如图2(a)所示,基于匹配分子对(MMPs)数据集,分子映射方法学习优化前后分子的药物化学转化规则,将待优化分子映射为性质更优的分子。匹配分子对分析具有可解释性和直观性,是以往药物化学家常用的优化策略。

深度学习模型通过学习匹配分子对,模仿药物化学家的知识与经验来实现先导优化。模型按照分子表示分为基于2D分子图表示的Graph2Graph模型和基于1D字符串表示的Seq2Seq模型两大类。除了分子表示方式存在不同,两种分子模型均参考了极大似然估计思路,利用优化前分子信息,推导最有可能形成优化后分子信息的模型的中间过程。通过构建分子表示转换的编码器 - 解码器模型,利用匹配分子对,学习保留结构与删除替换结构的优化规则,完成分子映射。

2.2 分布匹配学习方法

基于优化分子数据集,分布匹配学习方法学习优化分子的化学空间属性分布,通过调整待优化分子的化学空间属性分布使之接近优化分子分布,从而实现先导优化。

该方法借鉴了图像领域中的风格迁移思想。风格迁移是一种图像生成技术,其目的是在保留图像原始内容的基础上,改变其绘画风格,从而生成一幅新的图像。类比到先导优化,就是将待优化分子的分布迁移到优化分子的分布,同时保证优化前后分子具有一定的相似性。分子相似性原理是先导优化的理论依据,即结构相似的分子具有相似或相关的理化性质或生物活性。基于人工智能的先导优化方法通过保证相似性原则,降低优化后分子破坏已经确认的生物活性的可能性。如图2(b)所示,其目标是训练出一个映射函数G:X→Y,实现分子域D(X)到D(Y)的匹配。

2.3 分子局部搜索方法

如图2(C)所示,引导式搜索使用来自属性预测模型的指导或来自统计模型的评估,通过在分子化学空间和分子潜在空间搜索来实现分子优化。

分子化学空间搜索方法是直接在分子化学空间中,通过添加/删除/替换原子、键或环等操作修饰分子的部分亚结构,搜索满足目标属性的药物分子,常采用的搜索策略有强化学习、遗传算法等。这类搜索方法可以结合领域知识来引导目标分子的搜索。分子潜在空间搜索方法通常将化学空间中的分子编码为连续低维的潜在空间中的向量 , 通过搜索待优化分子的潜在向量周围的区域找到满足约束条件的潜在向量 , 再将其解码为化学空间中的分子。常用的搜索策略有梯度上升、粒子群优化、贝叶斯优化等。此外,在分子潜在空间可以很容易地施加正则化或结构先验。分子化学空间搜索直接在分子化学空间完成 , 一定程度避免了信息的丢失;分子潜在空间搜索则需要分子的编码和解码过程。

3 先导优化属性及定义

先导化合物作为现代新药研发的起点,尽管已具有了某些期望的性质,但由于某些缺陷,如生物活性较低、靶点选择性不理想、稳定性差、理化性质差、存在毒性或不良反应和ADME性质不合理等,仍有待进一步优化,以成为符合需求的理想候选药物。

先导优化的属性通常分为理化性质、药理学性质、药代动力学性质和毒性四种。常见的理化性质有辛醇-水分配系数(LogP)和合成可及性(SA),LogP衡量化合物的亲脂性;SA衡量化合物合成的难易程度。药理学性质包括生物活性和选择性等。常见的生物活性有靶点亲和力(药物 - 靶点对之间相互作用的强度)、靶点抑制性(抑制靶点的功能活性)。选择性是指药物与受体结合的选择性,只针对特定靶点产生相互作用。药代动力学性质(ADME),由吸收(A)、分布(D)、代谢 (M)和排泄(E)四个属性共同组成,反映药物进入机体后机体对药物的处置过程。药物的毒性不仅取决于其自身的化学结构,还取决于它对目标蛋白质的直接作用。目前公开的毒性数据集Tox21中有12种毒性指标。

此外,先导优化关注的属性还有PlogP(penalized logP)和类药性(QED)等。PLogP是一种复合指标,由理化性质LogP和SA组成,衡量化合物的亲脂性和分子合成的难易程度;QED衡量一个分子是潜在药物候选者的可能性。在药物发现中,有充分的证据表明,QED高的化合物,其成为药物的可能性也更高。

如图3所示,先导化合物的优化是一个多维度的优化问题,需要综合考量以上各种属性,获得在多种属性间最为均衡的候选药物,因此如何平衡各种属性是先导优化需要着重考虑的问题。现有的先导优化模型通常只针对一个属性进行优化,对于多属性优化的研究较少,且大多只针对2~3个属性。分子映射方法需要优化前后的匹配分子对,现实中很难搜寻到同时满足多种属性优化的匹配分子对数据集,因此难以实现多属性优化。分布匹配学习方法只需要优化后的分子集合,可以用来实现多属性优化。分子局部搜索方法,由于缺乏目标分子的明确指导,通常效率较低,难以搜寻到满足多种属性约束的优化分子,因此多用于单属性优化。

4 优化模型评估方法

模型评估是先导优化任务的一项重要工作。基于训练分子集S,在建立先导优化模型后,使用模型对测试分子集M进行优化,得到优化后的有效(即满足基本化学规则)分子集M'。针对优化前后的分子集M和M',常采用如下指标评估优化模型的性能。

相似性指标(Similarity),度量优化前后分子集M和M' 间的平均相似程度,通过对每一对优化前后的分子对(m,m' ),m M,m' M' 计算谷本(Tanimoto)相似性得到,计算公式如下:

其中fm与fm' 分别表示分子m和 m' 的摩根指纹(Morgan fingerprints)。多样性指标 (diversity),度量优化前后分子集M和M' 间的平均差异,通过对每一对优化前后的分子对 (m,m' ),m M,m' M' 计算谷本距离得到,计算公式如下:

新颖性指标 (novelty),度量优化后的分子集M'中新分子的比率,通过统计从未出现在训练分子集S中的优化后分子的个数得到,计算公式如下:

属性指标 (property),度量优化后的分子集M'的平均属性得分,通过计算每一个优化后的分子m'的属性得分得到,计算公式如下:

其中Oracle(∙)为计算分子属性得分的函数。

平均属性改进指标(improvement),度量优化前后分子集M和M' 的平均属性得分差距,通过对每一对优化前后的分子对(m,m' ),m M,m' M' 计算属性得分差得到,计算公式如下:

成功率指标(success),度量优化后的分子集M'中同时满足相似性指标阈值δs和优化属性指标阈值δr的新颖分子比率,计算公式如下:

5 总结与展望

近几年人工智能药物发现成为一个新的热点,如表1所示,国内外许多企业和研究所纷纷进军该领域,开发人工智能药物发现平台来加快药物研发的进程,已有多个进入临床前研究或临床实验的候选药物。例如,2020年英国制药企业Exscientia 与日本药企Sumitomo Daini-ppon借助人工智能技术将治疗强迫症的药物DSP-1181的先导优化过程缩短至一年,并成功进入第一阶段临床,这是全球首次基于人工智能研发的药物进入临床试验。2021年医图生科研发的AceMap智能药物研发平台,完成了首例完全由人工智能方法驱动的对重组门冬酰胺酶的药物优化,并成功将该药物推进到临床前研究阶段。同年,华为联合西安交通大学第一附属医院,基于盘古药物分子大模型——Pangu Drug研发出全新的广谱抗菌药物,将先导药物的研发周期缩短至1个月,大幅提升了新药研发的效率。

尽管人工智能在先导优化方面展现出巨大的潜力,但仍存在较多有待完善的方面。

(1)人工智能先导优化模型缺乏足够的可解释性,这也是人工智能领域中的一个经典问题。先导优化模型无法对优化出的候选药物分子做出合理解释,模型学到的优化知识与经验难以被药物化学家理解,因此面对后期巨大的研发成本,制药公司很难信任模型选出的候选药物分子并为其投资。

(2)人工智能先导药物的优化是一个多维度的优化问题。目前大多数先导优化模型通常只能优化单个属性,优化多个属性时通常不能达到理想效果。部分学者研究了多属性的分子优化方法,但只针对2~3个属性,显然现有的研究方法不足以解决此类多维度的优化问题。

(3)人工智能先导优化模型泛化性差,对数据的依赖性高。因此,其只能在已知的训练数据框架内进行优化,当优化训练集以外的分子结构时,很难起到实质性效果。

随着可解释性人工智能模型的不断完善,研究者有望从可解释性的角度在模型内部去探索结构 -属性的对应关系,从而使大众相信人工智能模型的预测结果。对于多维度优化问题,可通过探索更多的优化策略对药物空间进行全局属性搜索,从而找到多种属性的平衡点。目前已经有较多学者在探讨此类分布外泛化问题,相信在不久后能建立出基于因果推断的先导优化模型,摆脱对数据的依赖性。

选自《中国人工智能学会通讯》

2022年第12卷第11期

人工智能与生命科学专题

↓↓↓ 欢迎加入学会大家庭,获取更多会员专属福利

来源:科学小怡

相关推荐