南开大学郑伟等开发蛋白结构预测新模型:AI+物理模拟

360影视 欧美动漫 2025-05-26 19:11 2

摘要:2021 年, AlphaFold2 的问世曾让整个科学界沸腾,它用深度学习 ( Deep Learning) 技术解决了困扰生物学 50 年的蛋白质折叠难题,实现了对蛋白质结构的快速、精准预测,并于 2024 年获得了诺贝尔奖的认可。

2021 年, AlphaFold2 的问世曾让整个科学界沸腾,它用深度学习 ( Deep Learning) 技术解决了困扰生物学 50 年的蛋白质折叠难题,实现了对蛋白质结构的快速、精准预测,并于 2024 年获得了诺贝尔奖的认可。

2025 年 5 月 23 日, 南开大学统计与数据科学学院 郑伟 教授联合新加坡国立大学张阳教授、密歇根大学安娜堡分校及密歇根州立大学的研究人员,在 Nature 子刊 Nature Biotechnology 上发表了题为 : Deep-learning-based single-domain and multidomain protein structure prediction with D-I-TASSER 的研究论文。 该研究开发了一种新的蛋白质结构预测工具—— D-I-TASSER ( deep-learning-based iterative threading assembly refinement,基于深度学习的迭代线程装配优化) , 在蛋白质结构预测权威比赛 CASP15 中碾压所有对手。其在 单结构域 、 多结构域 的蛋白质结构预测方面均 优于 AlphaFold2 和 AlphaFold3 。

大规模蛋白质折叠实验进一步表明,研究团队还使用 D-I-TASSER 预测了人类蛋白质组中 19512 个蛋白质,其能够折叠人类蛋白质组中 81%的蛋白质结构域和 73%的全长序列,其结果与最近发布的 AlphaFold2.3 模型高度互补。

这些结果凸显了一条新途径——把深度学习与基于经典物理学的折叠模拟相结合,从而实现高精度的蛋白质结构和功能预测,这些预测可用于全基因组范围的应用。

为什么 AlphaFold 不是终点?

AlphaFold 通过海量数据训练神经网络,直接从蛋白质的氨基酸序列来预测其三维立体结构,但其局限性也逐渐显现:

1、多结构域预测短板 :80% 的人类蛋白质含多个结构域,传统方法常因忽略域间相互作用导致整体构象错误;

2、静态模型困境 :深度学习易输出单一构象,难以捕捉蛋白质动态变化;

3、孤儿蛋白难题 :对缺乏同源序列的蛋白质,预测能力骤降。

这些问题背后,是纯数据驱动方法的先天局限——蛋白质折叠本质上是一个物理过程,仅靠数据拟合,可能丢失底层规律。

D-I-TASSER:让 AI 学会触类旁通的混合智能

D-I-TASSER 的核心创新在于深度融合 深度学习 与 物理模拟 :

多源信息整合 :同时利用 AlphaFold2 的距离图谱、自研的 DeepPotential 接触图谱、AttentionPotential 氢键网络,构建多维约束;

物理引擎迭代优化 :通过蒙特卡洛模拟在能量场中“打磨”结构,突破神经网络不可微函数的限制;

多结构域拆分重组 :首创自动切割-独立预测-动态组装的流程,域内精度达 0.858 (较 AlphaFold2 提升2.8%) ,域间取向误差降低 17%。

D-I-TASSER 蛋白质结构预测流程图

技术亮点:

采用升级版 DeepMSA2 搜索宏基因组数据库,多序列比对 (MSA) 信息量提升 6.75 倍;

在 CASP15 盲测中,对困难靶标的预测精度比 AlphaFold2 高 29.2%;

成功解析超过 3000 个氨基酸残基的超大蛋白质 (例如新冠病毒刺突蛋白) ,捕捉开放/闭合双构象。

CASP15比赛 中 D-I-TASSER 建模结果

人类蛋白质组:新模型打开未知疆域

研究团队用 D-I-TASSER 预测了人类蛋白质约 20000 个功能蛋白中的 19512 个蛋白质结构 (覆盖率为 95%) :

覆盖度创纪录:81% 结构域、73% 全长序列可准确建模,较 AlphaFold 数据库新增 3020 个独有模型;

动态优势显现:无序区域构象多样性比 AlphaFold 高 59%;

功能注释突破:基于预测结构,系统注释了 ATP 结合、铁硫簇组装等关键功能位点,首次揭示 11 号染色体富集视觉相关蛋白。

挑战与未来

尽管 D-I-TASSER 表现惊艳,但也仍面临一些挑战:

孤儿蛋白 (同源序列

尚未涉及蛋白质复合体的结构预测;

计算耗时仍高于纯深度学习模型。

D-I-TASSER 的突破证明了蛋白质折叠的终极答案,或许不在数据或物理的单一维度,而在二者的深度协同,当深度学习遇见物理模拟,我们离破译蛋白质折叠密码又近了一步。此外,研究团队已开源 D-I-TASSER 预测模型 (https://zhanggroup.org/D-I-TASSER/) ,基于 D-I-TASSER 的人类蛋白质组预测数据库也同步开放。

来源:时空探险家

相关推荐