上海交大团队:AI精准筛选最佳药物分子

360影视 欧美动漫 2025-08-08 18:31 1

摘要:最近,由上海交通大学全球未来技术研究院张钟岳、饶佳骅等研究人员领导的国际团队在这个挑战面前取得了重大突破。他们的研究成果发表于2025年,论文题为《Fitness aligned structural modeling enables scalable vir


最近,由上海交通大学全球未来技术研究院张钟岳、饶佳骅等研究人员领导的国际团队在这个挑战面前取得了重大突破。他们的研究成果发表于2025年,论文题为《Fitness aligned structural modeling enables scalable virtual screening with AuroBind》,详细介绍了一个名为AuroBind的人工智能系统。这个系统就像一位超级精明的药物"侦探",能够在数千万种化合物中快速准确地找到最有希望成为新药的分子。

传统的药物发现过程就像用放大镜一个一个检查沙粒来寻找钻石一样效率低下。科学家们通常需要在实验室中逐一测试成千上万种化合物,这个过程不仅耗时数年,而且成本高昂,成功率还很低。即使是现有的计算机辅助药物设计方法,也存在着准确性不足、计算速度慢等问题,就像使用老式地图在现代城市中导航一样不够精准。

而AuroBind的出现就像为药物发现装上了GPS导航系统。这个系统的核心创新在于它能够同时预测蛋白质和化合物结合后的三维结构,以及这种结合的"适应性"或者说"匹配度"。就像一位经验丰富的红娘不仅能看出两个人在外表上是否般配,还能判断他们的性格、兴趣是否真正合拍一样,AuroBind不仅能预测分子间如何结合,还能评估这种结合对疾病治疗的实际效果。

这项研究的背景可以追溯到近年来人工智能在生物医学领域的快速发展。特别是AlphaFold等蛋白质结构预测系统的成功,为科学家们提供了前所未有的分子世界"地图"。然而,仅仅知道蛋白质的结构就像仅仅有了城市的建筑布局图,虽然有用,但要真正找到最佳的行进路线,还需要更多的交通信息、路况数据等。AuroBind正是在这样的背景下应运而生,它不满足于仅仅预测结构,而是要进一步预测功能效果。

研究团队面临的第一个重大挑战是如何让AI系统学会既准确预测分子结构又能评估功能效果。这就像要训练一位厨师不仅要知道如何搭配食材,还要能预测菜品的最终味道一样困难。他们采用了一种独特的"两阶段训练"策略。在第一阶段,研究人员让AuroBind学习大约10万个已知的蛋白质-化合物复合物结构,这相当于让这位AI"侦探"先熟悉各种案件的基本模式。

但仅仅学习已知案例是不够的,就像侦探不能只依靠过去的案例来破新案一样。因此,在第二阶段,研究团队采用了一种名为"自蒸馏"的巧妙方法。他们让已经初步训练好的AuroBind对更多的化合物进行预测,然后从这些预测结果中挑选出置信度高的部分作为新的训练数据。这个过程就像让侦探通过不断练习来提高自己的推理能力,最终生成了约23万个高质量的训练样本。

接下来是更关键的功能预测训练。研究团队收集了约127万个蛋白质-化合物对的实验数据,这些数据包含了化合物与蛋白质结合强度的精确测量值。这就像给侦探提供了大量真实案例的详细档案,让他学会不仅要看证据,还要判断证据的重要性和可靠性。

在这个阶段,研究人员引入了一种叫做"直接偏好优化"的创新训练方法。传统的训练方式就像教学生解数学题时只告诉他标准答案,而这种新方法更像是让学生在多个选项中学会选择最好的答案。系统会比较不同化合物的结合效果,学会区分哪些化合物是"优秀候选人",哪些只是"普通候选人"。

然而,即使训练出了高精度的AuroBind系统,面对数千万种化合物的筛选任务,计算量仍然是个巨大挑战。这就像即使有了最好的放大镜,要检查一整个沙滩的沙粒仍然需要很长时间。为了解决这个问题,研究团队开发了AuroBind的"快速版本"——AuroFast。

AuroFast就像AuroBind的得力助手,虽然没有完整版本那么精确,但速度快了10万倍。在实际应用中,AuroFast首先对所有化合物进行快速筛选,挑出最有希望的几千个候选者,然后再由完整版的AuroBind进行精细分析。这种"粗筛+精筛"的策略就像先用大网捞鱼,再用小网精选一样高效。

为了验证这套系统的实际效果,研究团队进行了一系列严格的测试。他们首先在计算机模拟环境中与现有的最佳方法进行比较。结果显示,AuroBind在结构预测准确性上超越了包括AlphaFold 3在内的现有系统,在功能预测方面也显著优于传统的深度学习和物理计算方法。

更重要的是,研究团队决定进行真正的"实战检验"。他们选择了10个不同类型的疾病相关蛋白质靶点,包括与癌症相关的酪氨酸激酶、与神经退行性疾病相关的表观遗传调节因子,以及一些此前从未被成功"攻克"的孤儿G蛋白偶联受体等。这就像选择了10个不同类型的"悬案"来测试侦探的真实能力。

对于每个靶点,研究团队都从包含约3000万种化合物的巨大化学库中进行筛选。这个化学库的规模相当于整个地球上所有已知化合物的很大一部分。整个筛选过程就像在全世界范围内寻找最适合的"嫌疑人",需要极其精密的"侦查技术"。

AuroFast首先在6小时内完成了对3000万化合物的初步筛选,从中选出了最有希望的1万个候选化合物。然后,完整版的AuroBind在24小时内对这1万个候选者进行了精细分析,最终为每个靶点选择了大约50个最优候选化合物进行实验验证。

实验结果令人震惊。在传统的药物筛选中,通常只有1-3%的化合物会显示出生物活性,而AuroBind的命中率达到了7-69%,平均超过了传统方法几十倍。更令人兴奋的是,许多发现的化合物显示出了纳摩尔级甚至皮摩尔级的强效活性,这意味着极少量的药物就能产生显著的治疗效果。

最强的一个发现是针对TrkB蛋白的化合物,其IC50值达到了220皮摩尔,这相当于在一杯水中只需要加入几个分子就能产生效果。总共发现了三个亚纳摩尔级的强效化合物,这在传统药物发现中是极其罕见的。

特别值得一提的是对孤儿G蛋白偶联受体GPR151和GPR160的成功发现。这两个受体就像两座从未被攻克的"孤岛",此前没有任何已知的有效化合物,也没有实验确定的三维结构。传统的基于结构的药物设计方法在面对这样的靶点时完全束手无策,就像没有地图的探险者面对未知的领域一样。

然而,AuroBind成功地为GPR151发现了7个活性化合物,为GPR160发现了14个活性化合物,其中既包括激动剂(能激活受体的化合物),也包括拮抗剂(能阻断受体的化合物)。这就像在完全陌生的地形中不仅找到了正确的道路,还发现了多条不同的路线。

对于GPR151,发现的两个最强效化合物GPR151-C15和GPR151-C40的EC50值分别为1100纳摩尔和4200纳摩尔。结构分析显示,这两个化合物都结合在受体的正构结合位点,并与受体形成了广泛的疏水和极性相互作用。值得注意的是,GPR151-C15比GPR151-C40形成了更多的分子接触,这解释了为什么前者具有更高的活性和效力。

对于GPR160,研究发现更加令人惊喜。两个最强效的激动剂GPR160-C45和GPR160-C05的EC50值都在1200-1250纳摩尔范围内,但更有趣的是,结构分析显示这两个化合物结合在受体的不同位点。这一发现说明AuroBind不仅能找到传统的结合位点,还能识别出此前未知的"隐藏口袋",为未来的药物设计开辟了新的可能性。

为了进一步验证GPR160化合物的生物学意义,研究团队还进行了细胞增殖实验。他们发现GPR160的一个化合物GPR160-C17能够显著抑制前列腺癌细胞PC3和肝癌细胞HepG2的增殖,这提示了这些化合物在癌症治疗方面的潜在应用价值。

除了在孤儿受体上的突破,AuroBind在传统药物靶点上的表现同样令人印象深刻。在GSK3α靶点上,AuroBind的命中率比之前报告的最佳结果高出49倍;在HER3靶点上高出69倍;在CDK2靶点上高出324倍;在mGluR5靶点上更是高出1474倍。这些数据清楚地显示了AI辅助药物发现相对于传统方法的巨大优势。

从化学多样性的角度来看,AuroBind发现的化合物也表现出了优异的特性。研究团队对发现的283个活性化合物进行了化学空间分析,发现其中25%(71个化合物)与ChEMBL数据库中任何已知活性化合物的结构相似性都低于0.30,这意味着这些是真正的"新面孔",为药物发现开辟了全新的化学空间。

这种化学多样性的意义就像在寻找解决问题的方案时,不仅找到了传统方法的改进版本,还发现了完全不同的解决思路。这对于克服传统药物可能面临的耐药性、副作用等问题具有重要意义。

研究团队还对AuroBind的计算效率进行了详细分析。完整的AuroBind系统虽然精度很高,但计算一个蛋白质-化合物复合物大约需要几秒钟的时间。而AuroFast系统能够在0.0012秒内完成同样的预测,速度提升了约10万倍。这使得在标准GPU硬件上,AuroFast能够在几小时内筛选2000-3000万个化合物,这在此前是完全不可想象的。

在与现有方法的对比中,AuroBind在各种评价指标上都表现出色。在结构预测方面,它在PoseBuster V1和V2基准测试中的成功率分别达到79.1%和81.7%,超过了AlphaFold 3的78.0%和81.0%。在功能预测方面,它在DAVIS和BindingDB数据集上的AUPR分数分别达到0.61和0.70,比最佳的监督学习基线分别提高了33.8%和11.6%。

更重要的是,在大规模虚拟筛选基准LIT-PCBA上,AuroFast在零样本设置下达到了7.58的enrichment factor 1%分数,比表现最佳的基线方法高出37.6%。这些数据证实了AuroBind不仅在个案上表现优异,在大规模应用中也具有显著优势。

从技术实现的角度来看,AuroBind的成功得益于几个关键的创新设计。首先是其独特的架构设计,它在保留AlphaFold 3的结构预测能力的同时,增加了专门的功能预测模块。这个模块不仅能预测整体的结合强度,还能提供残基级别的功能重要性映射,这对于理解药物作用机制和指导进一步的药物优化具有重要价值。

其次是训练策略的创新。传统的机器学习方法通常只能学习输入和输出之间的直接映射关系,而AuroBind采用的直接偏好优化方法能够学习更复杂的偏好关系。这就像教一个人不仅要知道什么是对的,还要知道在多个"对"的选项中哪个更好。

第三是数据处理的精巧设计。研究团队不仅使用了大量的实验数据,还通过过滤选择机制确保了训练数据的质量。他们只使用那些结构预测置信度高于0.5的样本进行功能训练,这就像只用高质量的教材来教学一样,确保了学习效果的可靠性。

在实际应用流程中,AuroBind采用了分层筛选的策略。这个流程包括三个主要步骤:首先使用AuroFast进行大规模快速筛选,然后使用完整版AuroBind进行精细分析,最后通过药物相似性、溶解性、商业可获得性等标准进行最终筛选。

整个流程的设计充分考虑了实际药物发现的需求。例如,在最终筛选阶段,系统会自动排除与已知活性化合物相似性过高的化合物(Tanimoto相似性>0.6),以确保发现的是真正的新化合物。同时,还会考虑化合物的druglikeness、溶解性等实际制药因素,确保发现的化合物不仅在理论上有效,在实际应用中也具有可行性。

值得注意的是,AuroBind的训练并不依赖于预定义的结合位点信息。传统的结构导向药物设计通常需要事先知道药物在蛋白质上的结合位点,这就像需要事先知道锁孔的形状才能配钥匙一样。而AuroBind能够自动识别最佳的结合位点,甚至能发现此前未知的"隐蔽口袋",这大大扩展了其应用范围。

从更宏观的角度来看,AuroBind的成功代表了人工智能在生物医学领域应用的一个重要里程碑。它不仅解决了药物发现中的技术难题,更重要的是提供了一种全新的研究范式。传统的药物发现是一个高度依赖实验的试错过程,而AuroBind提供了一种"理论先行、实验验证"的新模式。

这种模式的优势不仅在于效率的提升,更在于它能够系统性地探索化学空间。传统方法往往局限于已知的化学骨架和作用机制,而AI方法能够发现人类直觉难以想象的分子组合。这就像从人工绘制地图转向了卫星测绘,不仅精度更高,覆盖范围也更广。

当然,AuroBind也并非完美无缺。研究团队在论文中诚实地指出了系统的一些局限性。例如,对于高度动态或无序的蛋白质靶点(如KRAS或转录因子c-Myc),系统的性能仍需要进一步评估。此外,虽然系统在功能预测方面已经表现出色,但预测的精确度仍有改进空间,特别是在数据稀少的情况下。

另一个需要考虑的问题是计算资源的需求。虽然AuroFast大大提高了筛选效率,但完整版AuroBind的训练和运行仍需要相当强大的计算资源。研究团队使用了96块NVIDIA H800 GPU进行了30天的训练,这样的计算规模对于一般的研究机构来说仍然是一个挑战。

尽管存在这些限制,AuroBind的影响力已经开始显现。在论文审稿期间,就有其他研究团队发布了类似的工作,如Boltz-2等,这说明整个领域正在向功能导向的结构学习方向发展。这种平行发展的现象在科学史上往往标志着某个重要突破点的到来。

从产业应用的角度来看,AuroBind的成功可能会重塑整个药物发现行业。传统的制药公司可能需要重新考虑其研发策略,将更多资源投入到AI辅助的药物发现平台上。同时,这也可能催生新的商业模式,如专门提供AI药物筛选服务的公司。

对于学术研究而言,AuroBind提供了一个强大的工具,使研究人员能够更容易地探索那些此前被认为"不可成药"的蛋白质靶点。这可能会加速对罕见疾病、孤儿病等领域的药物开发,因为这些领域往往缺乏商业动机进行大规模的传统药物筛选。

展望未来,AuroBind类型的技术可能会继续向更高的精度和更广的适用性发展。可能的改进方向包括:更好地处理蛋白质动态性、整合更多类型的生物学数据(如基因表达、蛋白质修饰等)、以及开发针对特定疾病类型优化的专门版本。

另一个有趣的发展方向是多靶点药物设计。目前的系统主要关注单一蛋白质靶点,但许多疾病(特别是癌症、神经退行性疾病等)往往涉及多个相关靶点。未来的系统可能需要能够同时考虑多个靶点,设计出能够调节复杂生物学网络的药物。

从更长远的角度来看,AuroBind代表的AI辅助药物发现技术可能会与其他前沿技术相结合,如基因编辑、个性化医学、纳米药物递送等,形成更加强大的精准医疗解决方案。这种技术融合可能会带来真正的医疗革命,使得为每个患者定制专门药物成为可能。

说到底,AuroBind的出现让我们看到了人工智能在解决人类健康问题方面的巨大潜力。它不仅是一个技术突破,更是一个概念的转变——从依赖经验和直觉的传统药物发现,转向基于大数据和智能算法的现代药物设计。这种转变的意义不仅在于效率的提升,更在于它为攻克那些困扰人类已久的疾病提供了新的希望。

当然,从实验室的成功到真正的临床应用还有很长的路要走。发现有活性的化合物只是药物开发的第一步,后续还需要进行毒性测试、药代动力学研究、临床试验等多个阶段。但AuroBind为这个漫长过程提供了一个强有力的起点,大大提高了成功的概率。

对于普通人来说,AuroBind的成功意味着什么呢?最直接的影响可能是未来会有更多的疾病找到有效的治疗方法,特别是那些目前缺乏治疗手段的罕见疾病。同时,新药开发的成本可能会降低,这有望使得药物治疗变得更加经济实惠。

更重要的是,AuroBind展示了人工智能与人类科学家协作的巨大价值。这种协作模式可能会成为未来科学研究的标准配置,不仅在药物发现领域,在材料科学、环境科学、能源技术等各个领域都可能产生类似的突破。

归根结底,AuroBind的故事告诉我们,当先进的人工智能技术遇到迫切的人类需求时,往往能够产生令人惊喜的结果。这项研究不仅为药物发现提供了新的工具,更为人工智能在科学研究中的应用树立了一个典型的成功案例。随着技术的不断完善和应用的日益广泛,我们有理由期待更多的科学突破将在AI的帮助下实现,为人类健康和福祉做出更大的贡献。

有兴趣深入了解这项研究技术细节的读者,可以访问研究团队在GitHub上公开的代码和预训练模型(https://github.com/GENTEL-lab/AuroBind),或者查阅发表的完整论文以获得更多详细信息。

Q&A

Q1:AuroBind是什么?它和传统药物发现方法有什么不同?

A:AuroBind是上海交通大学团队开发的AI药物发现系统,就像一位超级精明的药物"侦探"。与传统方法需要在实验室逐一测试成千上万种化合物不同,AuroBind能在数千万化合物中快速准确筛选,命中率达到7-69%,比传统方法高几十倍,还能同时预测分子结合结构和治疗效果。

Q2:AuroBind发现的药物分子效果如何?安全性怎么样?

A:AuroBind发现的化合物效果非常强,最强的一个针对TrkB蛋白的化合物达到220皮摩尔级效力,相当于一杯水中加几个分子就有效果。总共发现了三个亚纳摩尔级化合物。不过目前这些还是实验室发现,要成为真正的药物还需要经过毒性测试、临床试验等多个验证阶段。

Q3:普通人什么时候能用上AuroBind发现的新药?

A:从实验室发现到临床应用通常需要10-15年时间,包括安全性测试、临床试验等阶段。但AuroBind的意义在于大大提高了新药发现的成功率和速度,特别是为那些目前缺乏治疗手段的罕见疾病带来希望,未来可能会有更多疾病找到有效治疗方法,药物成本也可能降低。

来源:至顶网一点号

相关推荐