AI驱动的蛋白质研究闭环:结构、功能、设计的融合进展

360影视 日韩动漫 2025-08-31 09:43 2

摘要:蛋白质研究正处于一场由AI驱动的深刻变革之中。从结构预测、功能解析到从头设计,AI工具的广泛应用显著拓展了蛋白质科学探索的深度与广度。以AlphaFold为代表的前沿模型开创了蛋白质研究的新范式,而国内众多团队的迅速崛起则进一步推动了数据-模型-实验闭环的高效

导语

蛋白质研究正处于一场由AI驱动的深刻变革之中。从结构预测、功能解析到从头设计,AI工具的广泛应用显著拓展了蛋白质科学探索的深度与广度。以AlphaFold为代表的前沿模型开创了蛋白质研究的新范式,而国内众多团队的迅速崛起则进一步推动了数据-模型-实验闭环的高效形成。

在近期的「AI驱动的计算医学研讨会」中,蛋白质研究正是分子尺度上最具活力的方向之一。本文将聚焦AI在蛋白质领域的前沿进展与代表性成果,深入探讨全球特别是国内团队的创新突破,展望计算医学时代蛋白质研究的未来路径与应用前景。

蛋白质是生命活动中的“基层打工人”。从DNA这个“大领导”那里领到任务后,再经过RNA这一“中层”的转录、翻译和修饰,最终所有具体的工作都要靠蛋白质来完成。在巨大压力下,蛋白质也不得不“卷起来”:即使是相同氨基酸序列的蛋白质,也可能呈现不同的结构,并与其他蛋白或RNA互作。而一旦蛋白质“罢工”,我们的健康也会随之受到威胁。

就像打工人总有各种“摸鱼技巧”,蛋白质的活动方式也并非简单固定。以往研究者只能用冷冻电镜等昂贵且周期长的实验手段,一点点积累对蛋白质的了解,而AI的出现则为蛋白质研究按下了加速键。本文将从结构解析、功能预测再到蛋白设计,梳理AI驱动蛋白质研究的前沿进展,并关注国内团队的代表性工作。

2024年的诺贝尔化学奖授予了开发AlphaFold的John Jumper和Demis Hassabis,以及蛋白质设计领域的先驱David Baker。在以AlphaFold为代表的结构预测模型出现之前,全球结构生物学界通过实验手段验证的蛋白质结构(记录在蛋白质数据库PDB中,截至2024年7月21日)不足24万个;而AlphaFold数据库(AlphaFold Database,AFDB)提供了涵盖从细菌到人类等多个物种的超过2亿个预测蛋白质结构数据,仅从这一数量对比就能看到AlphaFold的革命性所在。

2024 年推出的 AlphaFold 3[1],于 2024 年 11 月对学术用途开放了代码与权重(非商用许可,非完全开源),并提供 AlphaFold Server 在线使用。其采取了扩散模型,能做到不仅仅预测蛋白质在自然状态下的静态结构,还能够预测包括RNA,小分子(例如蛋白质-配体结合、抗原-抗体复合物)的结构,标志着AI驱动的结构预测从单一蛋白质向多分子互作网络的范式转变,这也意味着蛋白质结构预测将更为实用。

用一个形象的比喻说明AlphaFold2到AlphaFold3的进步:AlphaFold2相当于为蛋白质拍摄了一张“证件照”,但蛋白质真正工作时还需要与其他分子协同配合,而AlphaFold3则能预测蛋白质工作时与其他“同事”的“合影”。不过,蛋白质在细胞中始终处于动态的变化之中,药物分子能否与特定蛋白结合,往往取决于能否捕捉蛋白质某个稍纵即逝的动态构象,这就要求进一步为蛋白质拍摄“视频”,而这正是接下来介绍的国产预测模型的研究重点。

在结构预测领域,多个国内团队竞相追赶。2025年3月,北京智源人工智能研究院推出了新一代的OpenComplex-2 [2],其前作曾在蛋白质结构预测权威竞赛CAMEO中稳定取得领先成绩。新一代的OpenComplex-2在功能上涵盖了单体蛋白质结构预测、复合物建模(多链复合物结构预测)、分子间相互作用(RNA及蛋白质-RNA复合物)预测以及柔性对接,能在原子分辨率层面捕捉分子相互作用及其平衡构象。此外,OpenComplex-2的计算效率相比AlphaFold更高,所需的计算资源也更少。

图1:OpenComplex模型在蛋白质结构预测权威竞赛CAMEO中的成绩

百度飞桨团队于2025年7月提出了HelixFold-S1[3],借鉴了大语言模型领域的test-time scaling策略,采用了一种基于接触感知的采样方法,能够有效预测两个蛋白质分子如何结合。具体而言,HelixFold-S1会首先预测两个蛋白质可能在哪个区域、以何种方式结合,随后再优先探索具有高结合潜力的区域,通过“先锁定目标,再精准建模”的方式,有效引导了结构生成过程,显著提高了复杂场景下预测的准确率和效率。

图2:HelixFold-S1(HF-S1)模型相比此前的HF3及其他模型,在蛋白质-蛋白质对接质量评估指标DockQ上的表现

南开大学统计与数据科学学院郑伟教授团队与新加坡国立大学合作,于2025年在Nature Biotechnology 发表了D-I-TASSER模型[4]。该模型融合了深度学习与统计物理能量函数力场,能够在原子级精度预测蛋白质结构。蛋白质结构域(Domain)是复杂蛋白质三级结构中的基本折叠和功能单元,大约60%的原核生物蛋白质和80%的真核生物蛋白质都由多个结构域(Multi-domain)组成,并且依赖结构域之间的相互作用来实现更复杂的生物学功能。目前大部分蛋白质结构预测工具只聚焦于单个结构域,这相当于只能给蛋白质拍摄“半身照”,而D-I-TASSER则能够捕捉完整蛋白质的全域结构,如同拍摄“全身照”。

图3:一个含有多个结构域(共3个结构域)的蛋白质单体示意图,不同结构域以不同颜色标记

TCR(T细胞受体)是免疫细胞T细胞用于抗原识别和免疫应答的重要受体,相当于免疫系统的“敌我识别”机制。合理地设计TCR的亲和力,对于疫苗开发、自身免疫疾病和癌症治疗至关重要。腾讯AI Lab、清华大学深圳国际研究生院和莫纳什大学合作推出了tFold-TCR模型[5]。与现有方法(包括AlphaFold 3)相比,tFold-TCR在预测TCR相关蛋白质相互作用时,在DockQ指标下预测成功率提高了约30.7%,计算速度也提升了超过25倍。这种改进将有望加速免疫治疗中对有效抗体的筛选过程。

如果说蛋白质结构预测是在描述蛋白质的状态,那么生物学研究者最终关心的,是一个特定蛋白质能够完成哪些功能。蛋白质功能预测的实质在于准确判定未知功能蛋白质与已知功能蛋白质在序列、结构和功能等方面的相似程度。目前最常用的功能描述方式称为基因本体(Gene Ontology, GO),包含了数万个术语,涵盖蛋白质在细胞和生物体内的各种功能与位置。随着高通量测序技术的快速发展,已知蛋白质序列数量迅速增加,但目前仅不到1%的蛋白质序列通过GO分析进行了功能注释。

蛋白质功能预测方法主要可分为两类,分别是基于蛋白质序列的方法与基于蛋白质结构的方法。第一类方法的代表是DeepGO-SE[6],该方法通过近似语义蕴含来增强模型的预测能力。具体而言,DeepGO-SE首先引入隐空间,使蛋白质的嵌入表征能够捕捉序列相似性之外的更多特征,然后再通过语义的逻辑关系,推导出待预测蛋白质的功能预测结果。该方法在蛋白质功能预测的准确性上相比传统基线方法有显著提升。

图4:DeepGO-SE的数据处理流程图

中山大学李敏教授团队于25年1月在Nature Communications上发表的DPFunc[7]是基于结构进行蛋白功能预测的工具。该方法使用深度学习,通过引入结构域引导,显著提升了蛋白质功能预测的准确性和可解释性。相比于基于序列相似性的方法,基于结构的预测方法DPFunc在预测罕见功能、特定功能以及低序列相似性蛋白质方面表现优异,尤其在结构域信息的指导下,显著提升了预测准确性。

图5:DPFunc的模型架构,包括残基级特征学习模块和蛋白质功能预测模块

那么,有没有一种方法能够同时利用序列相似性和结构信息来预测蛋白质功能呢?有的,这就是Prot2Text-V2[8]模型。Prot2Text-V2将图神经网络(Graph Neural Network, GNN)与大型语言模型(Large Language Model, LLM)融合到同一个编码器-解码器框架中,有效整合了包括蛋白质序列、结构和文本注释在内的多种数据,以自由文本形式输出蛋白质功能预测结果,超越了传统二分类或多分类的局限。Prot2Text-V2生成的预测结果,不再是类似GO术语那样结构化但难以理解的代码,而是更加直观易懂的自然语言描述。

图6:Prot2Text-V2的处理流程示意图

将生命过程转化为一种工程活动,使研究者能够像定制乐高积木那样,有计划地对蛋白质骨架及功能进行“从头(de novo)”设计,是蛋白质研究的终极目标。天然蛋白质只占有效蛋白质序列空间的一小部分,“蛋白质从头设计”能够跳脱自然进化的限制,从零开始拓展蛋白质结构、序列和功能的可能性空间,创造出自然界不存在的新型蛋白质。经过设计的蛋白质,其定量性质(如速率、亲和力等)可调、可被任意输入控制且具有模块化特性,使不同蛋白质元件能够组合在一起实现多样化的输入/输出功能。

图7:蛋白质从头设计的优势,来源于文献[9]

蛋白质设计在药物研发、绿色制造、食品安全等领域具有广泛的应用潜力。2024年诺贝尔化学奖得主David Baker因其在蛋白质设计领域的开创性研究而获奖。他提出的RFdiffusion方法[13],能够从头设计并生成自然界中不存在的全新蛋白质,例如,他的团队利用该方法设计的蛋白质,已成功中和多种蛇毒中的神经毒素。

蛋白质中信息的流动通常是从序列到结构再到功能,每一步的确定都基于前一步信息的驱动。蛋白质设计则建立在反转这一过程的基础上:先指定目标功能,再设计能够实现该功能的蛋白质结构,最终找到能折叠为该结构的氨基酸序列。

图8:蛋白质设计的基本流程示意图,来源于文献[10]

目前AI在蛋白质设计中的应用可分为两类。第一类方法类似用“指纹”匹配“锁孔”:AI算法将蛋白质结构转化为带电性质的“凹凸密码”(如正电荷凹槽),再匹配具有互补电荷和结构的小分子(如带负电荷的凸起)。例如,设计新冠病毒刺突蛋白抑制剂时,AI算法可直接预测出能够精准嵌合病毒表面的分子形状。这类方法能够发现人类研究者难以察觉的复杂模式,但其决策过程较为“黑箱”,难以直观解释。

图9:蛋白质功能设计示意图,来源于文献[9]。(B和C) 展示设计与小分子结合的蛋白质,经典设计方法(B)将目标结合位点嵌入已存在的蛋白骨架中,而基于人工智能的方法(C)则围绕目标结合位点生成新的蛋白质骨架。(D–F) 展示设计与目标蛋白(蓝色形状)结合的蛋白质,深红色区域为通过序列优化设计的区域。

第二类方法是基于生成式AI的蛋白质设计。这类方法使AI通过海量学习蛋白质相互作用数据,“脑补”出全新的功能模块。比如输入一个功能需求“能够结合铁离子的蛋白质”,AI即可自动生成候选的氨基酸序列。这类方法的代表之一是ProGen[11],该方法借鉴了ChatGPT的训练思路,不仅输入已知蛋白质的氨基酸序列,同时还输入相应的功能控制标签。ProGen能够批量生成具有潜在特定功能的新蛋白质序列;尽管这些序列与天然蛋白质序列有较大差异,但其功能却能达到甚至超过天然蛋白质的水平。

图10:ProGen模型的输入、输出及处理流程示意图

除了上述“从头设计”方法之外,还有一种从现有蛋白质出发的设计方法。这类方法根据给定的目标功能,提出需要调整的氨基酸序列位置与突变建议。条件生成模型(如DeepDirect[12])便属于这一类型,可以针对特定需求(如提高结合亲和力或热稳定性)定制蛋白质。DeepDirect利用对抗学习生成突变,显著提升蛋白质与目标分子之间的亲和力变化方向。其输入包括蛋白质氨基酸序列、蛋白质结构/辅助数据和相关的噪声信息(如图11a所示)。突变生成器可产生潜在的突变位点,并结合蛋白质结构特征,通过对抗学习机制筛选突变蛋白(如图11b所示),引导亲和力向预期方向变化(如图11c所示)。DeepDirect不仅适用于蛋白质设计,也能用于理解疾病进化机制与蛋白质动力学。

图11:DeepDirect突变生成器工作原理示意图

EVOLVEpro[14]与DeepDirect类似,同属于定向进化框架模型。不同之处在于,EVOLVEpro结合了蛋白质语言模型和少样本主动学习,将蛋白质序列编码至连续的潜在空间中,以提高活性优化效率;随后利用顶层回归模型,从少量实验数据中学习潜在空间与蛋白质活性之间的映射关系。EVOLVEpro通过多轮主动学习迭代,每轮根据模型预测的活性对序列进行排名,挑选排名靠前的序列进行实验验证,并循环迭代,直至达到预定目标。这相当于在数字环境中加速蛋白质在特定功能方向上的进化,使研究人员能够快速从现有蛋白出发,优化其多种活性。在抗体设计应用中,EVOLVEpro还能同时考虑多个设计需求,并赋予不同权重(如亲和力权重设为表达水平的四倍)。通过多目标优化,EVOLVEpro优先选出更高亲和力的候选蛋白。

图12:EVOLVEpro模型的蛋白质设计流程图

面对众多蛋白质设计工具,上海交通大学洪亮团队开发了VenusFactory平台[15],集成了超过40个前沿蛋白质深度学习模型,可在本地启动Web服务快速调用。VenusFactory直接连接了RCSB PDB、UniProt、InterPro等主流公开数据库,并通过多线程高速下载,极大提高了数据检索效率。该平台提供在线服务,有效降低了蛋白质设计工具的使用门槛。

本文的行文逻辑围绕“提出假设—实验验证—模型优化”的AI驱动闭环展开。在药物研发等应用过程中,由于潜在的蛋白质序列数量巨大,且蛋白质序列稍微改变,其结构往往会发生显著变化,研究者无法通过实验手段穷举所有可能的蛋白质结构。因此,研究者要么根据预期功能,通过定向进化从已有序列逐步优化获得目标蛋白质,要么使用端到端的模型,从头设计具有特定功能的新蛋白质。AI工具设计出候选蛋白质后,在进行实验验证前,还可以先用结构预测工具进行初筛,再通过实验结果进一步指导模型优化。

近年来,在蛋白质组学与人工智能(AI)深度融合的背景下,蛋白质结构预测、功能解析与从头设计领域取得了一系列突破性进展。本文回顾了近几年的几项关键成果:在蛋白质结构预测方面,AI技术加速了蛋白质结构的实验解析进程,为罕见蛋白质的功能解析提供了基础。在蛋白质功能预测方面,AI模型通过整合多组学数据(如转录组、互作组、代谢通路等)和序列特征,有效地预测蛋白质的亚细胞定位、酶活性类别、结合位点以及参与的生物通路。在蛋白质设计领域,AI正从“理解”迈向“创造”,生成式模型(如扩散模型、变分自编码器VAE)和结构条件化序列设计模型(如ProteinMPNN)已成功应用于从头设计具有特定结构和功能的蛋白质。

来源:小夭看天下

相关推荐