摘要:2025年2月27日,Nature期刊发布《增强人工智能药物研发的四种方法》(Four ways to power-up AI for drug discovery),文章探讨了人工智能在药物研发中的挑战和机遇。启元洞见编译文章主要内容,旨在为读者了解增强人工
药物研发极其困难,德国汉堡生物技术公司Evotec的计算化学家大卫·帕多(David Pardoe)说道:“在大约100年的现代医学发展历程中,我们仅为约7000种罕见疾病中的500种找到了治疗方法。这一过程耗时过长,成本过高。”但理论上,人工智能有望解决这两个问题。
人工智能应当能够整合潜在药物分子的三维几何结构和原子结构,并构建它如何与靶蛋白结合的图谱。随后,研究人员可以调整设计,使潜在药物更具效力,或者算法可以识别全新的靶点进行探索。此外,人工智能系统还可能考虑到药物与靶点相互作用的复杂生物环境。某些潜在药物可能会因与多种非靶蛋白产生不良相互作用而带来副作用,从而影响其应用前景。
开发能够加速药物发现的系统的关键在于大量优质数据。与其他一些人工智能应用领域的科学家相比,药物研发领域的研究人员具有扎实的数据基础:全球各地的实验室正在源源不断地产生大量生物数据,为人工智能技术的应用奠定了坚实基础。
然而,尽管庞大的数据规模似乎表明人工智能变革药物研发只是时间问题,但事实并非如此。数据质量往往难以达标,因为大多数数据的采集并未专门针对机器学习进行设计。实验方法和数据记录方式缺乏一致性,以及研究结果偏向于发表积极结论,而忽略负面或无效数据,这些因素都会带来问题。尽管有些人认为,只要数据量足够大,就能自动解决这些问题,但也有人认为,学术界和工业界的研究人员需要携手合作,提高用于机器学习模型的数据质量。
哪些问题最紧迫?哪些解决方案应当优先实施?这些问题仍存在争议。为进一步探讨如何让人工智能真正实现对药物研发的变革,达到许多人所期望的程度,本文采访了多位该领域的研究人员,以梳理出可采取的具体行动。
一、标准化报告和实验方法
巴黎人工智能生物技术公司Owkin的首席数据科学官艾瑞克·杜兰德(Eric Durand)说道:“人工智能面临的一个巨大挑战是数据的生成方式。”
当不同实验室使用不同的方法、试剂和仪器时,数据中可能会引入所谓的“批次效应”(batch effects)。例如,样本处理过程中的细微差异、不同批次试剂和细胞之间的变异,甚至是分子结构的命名和描述方式,都会导致数据的变化。而这些变化可能被人工智能模型误判为具有生物学意义的特征。杜兰德解释道:“你不能直接拿两个实验室生成的数据集进行联合分析,而不进行预处理。”
美国马萨诸塞州剑桥生物技术公司Relay Therapeutics的计算化学家帕特·沃尔特斯(Pat Walters)说道:“必须小心对待这些数据。它们来自不同实验室,而这些实验室的实验方式并不相同,因此很难做到‘同类对比’(apples-to-apples comparisons)。”
有些人认为,生成符合人工智能需求的有序数据的最佳方式是制定实验运行和报告的规则。例如,可以从一开始就统一疾病和基因的命名,并提前达成实验协议。一个成功的案例是人类细胞图谱(Human Cell Atlas),这是一个于2016年启动的全球项目,目前已以严格标准化的方法绘制了数百万个人体细胞图谱。这些一致的数据为人工智能算法提供了基础,有助于寻找潜在的药物靶点。
一个名为Polaris的项目——一个用于药物研发的基准测试平台——也旨在帮助清理和标准化机器学习所需的数据集。该项目在2024年底发布了一篇预印本论文,提出了相关指南,并正在征求反馈意见。
Polaris规定了数据集的基本审核标准。例如,数据创建者必须说明数据的生成方式及其适用范围,并明确引用其信息来源。此外,该平台提醒研究人员自行检查数据集中是否存在明显的重复项或不明确的信息。计算化学家沃尔特斯说道:“我们还邀请专家对部分公开数据集进行审核,以便向学术界和工业界提供高质量数据的参考。”为了进一步提升数据质量,Polaris还引入了一种认证标章,用于标识那些符合标准的数据集。
帕多指出,如果不进一步努力生成统一且高质量的数据,那么继续研发更先进的算法可能意义不大。他表示:“一旦这些‘优质’数据可用,我们就能在正确的方向上取得快速且显著的进展。”
二、认识到负面结果的价值
人工智能训练的数据通常来自已发表的研究,而这些研究往往更倾向于展示成功结果,这就导致人工智能在学习时对生物学领域形成了一种扭曲且过于乐观的认知。例如,已有的研究数据中,更多记录的是在动物实验中表现良好、无明显毒性的成熟化合物,而对那些失败的化合物记录较少。因此,人工智能在进行药物发现时,可能会因缺乏大量隐藏失败的案例,而无法全面评估药物的潜力。
伦敦国王学院的药物化学家米拉兹·拉赫曼(Miraz Rahman)提出了一例这样的偏见问题,即在新型抗生素的研究中,人工智能可能会产生误导性的建议。抗生素要发挥作用,首先必须成功进入细菌细胞。许多已发表的研究表明,伯胺(primary amines,一种结构类似氨的小分子)可以帮助药物进入细菌体内。因此,人工智能若基于这些研究进行分析,就会不断推荐含有伯胺基团的化合物。
但拉赫曼认为,这种推荐是不可靠的。他说:“我的实验室已经积累了大量数据,表明这并不可行。”然而,这些失败的数据并未发表,导致人工智能无法识别这个错误,从而继续做出错误的预测。
制药公司同样受到偏向于分享正面结果的影响。“被发表的总是成功案例,”拉赫曼说道。当公司选择不公开其负面研究结果时,呈现给算法的表象就会比现实更加简单、光鲜。
一种解决方法是从一开始就明确收集正面和负面结果的意图。其中一个受到关注的项目由美国加州大学旧金山分校的结构生物学家詹姆斯·弗雷泽(James Fraser)领导,并由美国先进研究计划署(ARPA-H)资助。该项目关注的是药代动力学(pharmacokinetics),即研究人体对化合物的作用方式。
一种药物在体内的去向取决于其在体内的吸收、分布、代谢和排泄(ADME)。如果人体清除某种化合物的速度过慢,可能会带来安全风险。但如果它被排出得太快,药效可能也会大打折扣。“你可以设计出一个能紧密结合目标蛋白的分子,但如果该分子被迅速排出体外,它就无法作为有效的药物,”该项目的支持者沃尔特斯说道。此外,药物还可能与体内的非目标蛋白相互作用,从而引发毒性反应,并减缓或减少药物到达预期目标部位的量。
这些ADME问题通常在药物研发的后期才显现出来,可能导致昂贵的失败。“目前的过程就像打地鼠一样,”弗雷泽说道,“你设计新的分子来消除一个问题,但另一个问题又冒出来了,然后你再围绕它进行优化。”
弗雷泽将他目前的研究称为“avoid-ome”项目,因为它旨在为人工智能工具提供必要的数据,以识别这些潜在问题。该项目的目标并不是生成关于药物靶点的数据,而是研究那些科学家通常希望避免的蛋白质。其核心是建立一个实验数据和结构数据的数据库,专注于与ADME相关的蛋白质结合信息。自去年10月获得资金支持以来,弗雷泽的实验室已开始针对ADME的代谢环节进行测试。
这些研究成果将有助于开发预测性人工智能模型,从而优化候选药物的药代动力学特性。“研究人员将需要合成更少的分子,同时能更全面地评估所有潜在问题,从而更快地找到符合所有标准、可以进入人体试验的药物分子。”弗雷泽说道。
三、共享行业数据与专业知识
制药公司掌握着大量数据,包括负面研究结果,并以标准化方式收集这些数据,使其更适用于人工智能模型的分析。然而,只有一小部分数据被公开。拉赫曼估计,即使是相对开放的制药公司,也仅公开其数据的15%–30%,而临床试验数据的公开比例可达到50%。
这些数据的价值,制药公司自身当然深知。2018年,瑞士巴塞尔诺华制药公司(Novartis)的首席执行官瓦斯·纳拉西姆汉(Vas Narasimhan)曾提出,要将公司重新定位为“医药与数据科学公司”,并强调其在新药研发中拥抱人工智能技术的雄心。因此,大多数制药公司对于与学术界或其他企业共享数据持极大的抗拒态度。
“像诺华这样的大公司——我曾在其中工作多年——拥有成千上万个化合物的测试数据,这些化合物曾被用于评估与特定蛋白质的结合情况,”杜兰德说道,“但他们不愿意与竞争对手分享这些数据,因为这是他们的核心资产。”
四、促进制药公司间的数据共享
为了推动制药公司之间的数据共享,Owkin参与了一项欧盟资助的项目——Melloddy。该项目采用联邦学习(federated learning)方法,使十家制药公司能够在不向竞争对手披露敏感生物和化学数据的情况下,共同训练预测软件。在该项目中,训练模型用来关联分子的化学结构与其生物活性,最终其预测准确性远超大多数公司的现有模型。
然而,并非所有人都对这一成果感到满意。不同公司采用不同方式生产的数据,在整合时往往会遇到熟悉的问题。此外,对数据进行匿名化处理可能会降低其信息的丰富度。“想要在不泄露化学结构及实验方法的前提下整合数据集,这非常困难。”沃尔特斯解释道。
此外,该项目并未改善学术界所依赖的公共数据库现状。学者们深知,光靠请求是不可能让他们轻易获得制药公司的数据。因此,一些研究人员呼吁制药公司在数据共享方面发挥另一项优势——资金支持。
目前,最具研究价值的数据库之一是英国生物样本库(UK Biobank),该项目系统性地收集了50万名英国人的基因、生活方式、健康信息及生物样本。该项目已获得超过5亿英镑(约6.32亿美元)的资助,但主要资金来源是政府和慈善机构。波士顿人工智能生物科技公司Insilico Medicine的创始人兼首席执行官阿列克谢·扎沃隆科夫(Alex Zhavoronkov)表示,“大型制药公司应该资助像英国生物样本库这样的项目。”
五、充分利用现有资源
一些研究人员认为,庞大的数据量和更智能的数据处理可以在很大程度上克服人工智能在新药研发中的挑战。“只要数据足够多,人工智能就能学会如何进行泛化,”扎沃隆科夫表示。
Insilico Medicine通过整合美国政府数十亿美元研究资助所产生的数据,将其与学术论文、临床试验、专利以及基因和化学数据存储库相链接。“现代人工智能工具可以追溯某项创新的来源,甚至具体到最初的研究资助项目,”扎沃隆科夫解释道。
这些原始数据随后被进一步处理。在Insilico,这一过程包括引入评分机制,例如帮助人工智能算法衡量研究结果的重要性或可信度。“我们有一款工具,可以评估发表论文的科学家的可信度,”扎沃隆科夫说,“如果一个人之前撒过谎,那么他再次撒谎的概率就会更高。”
此外,Insilico还会跟踪公司在公布临床试验结果后的股价波动。如果股价大幅下跌,那么无论公司如何表述,我们都会认为试验结果是负面的。
2019年末,Insilico Medicine的人工智能驱动药物研发平台PandaOmics发现了一种针对纤维化疾病的新靶点,该类疾病涉及过度的瘢痕组织增生。随后,公司利用其生成式人工智能平台Chemistry42设计了能够阻断该靶点的化合物。该算法利用ChEMBL等大型分子数据库,学习化学结构的模式,并生成潜在药物。
2023年8月,Insilico完成了一项IIa期临床试验,研究对象为特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)成人患者,这是一种导致肺部瘢痕化的疾病。公司目前正筹备后续试验,而扎沃隆科夫对未来充满信心:“自2019年以来,我们已确定了22种临床前候选药物。”
一些大型公共数据池无疑更难被人工智能利用。例如,批量RNA测序(bulk RNA sequencing),其数据来源于混合的组织样本,因此反映的是多个细胞的基因表达平均水平。而如今,单细胞测序(single-cell sequencing)被认为更具优势,因为它可以检测稀有细胞所产生的蛋白质,并在组织映射中提供更高的分辨率。
然而,扎沃隆科夫认为,不应忽视这些并不完美的公共数据。他表示:“这些数据必须被重复利用,毕竟已经有大量动物因此被牺牲,而人工智能需要依赖这些数据进行训练。”他主张创建小规模、高质量的数据集,以用于测试人工智能模型的预测能力,确保其在使用大规模、可能存在缺陷的数据集训练后仍能做出准确预测。
他进一步建议,这些高质量数据应来自自动化实验室,通过标准化方式专门生成某些类型的数据,以提高人工智能训练的可靠性。
转自丨启元洞见
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
_er
来源:全球技术地图