摘要:2021 年, AlphaFold2 的问世曾让整个科学界沸腾,它用深度学习 ( Deep Learning) 技术解决了困扰生物学 50 年的蛋白质折叠难题,实现了对蛋白质结构的快速、精准预测,并于 2024 年获得了诺贝尔奖的认可。
2021 年, AlphaFold2 的问世曾让整个科学界沸腾,它用深度学习 ( Deep Learning) 技术解决了困扰生物学 50 年的蛋白质折叠难题,实现了对蛋白质结构的快速、精准预测,并于 2024 年获得了诺贝尔奖的认可。
2025 年 5 月 23 日, 南开大学统计与数据科学学院 郑伟 教授联合新加坡国立大学张阳教授、密歇根大学安娜堡分校及密歇根州立大学的研究人员,在 Nature 子刊 Nature Biotechnology 上发表了题为 : Deep-learning-based single-domain and multidomain protein structure prediction with D-I-TASSER 的研究论文。 该研究开发了一种新的蛋白质结构预测工具—— D-I-TASSER ( deep-learning-based iterative threading assembly refinement,基于深度学习的迭代线程装配优化) , 在蛋白质结构预测权威比赛 CASP15 中碾压所有对手。其在 单结构域 、 多结构域 的蛋白质结构预测方面均 优于 AlphaFold2 和 AlphaFold3 。大规模蛋白质折叠实验进一步表明,研究团队还使用 D-I-TASSER 预测了人类蛋白质组中 19512 个蛋白质,其能够折叠人类蛋白质组中 81%的蛋白质结构域和 73%的全长序列,其结果与最近发布的 AlphaFold2.3 模型高度互补。
这些结果凸显了一条新途径——把深度学习与基于经典物理学的折叠模拟相结合,从而实现高精度的蛋白质结构和功能预测,这些预测可用于全基因组范围的应用。
为什么 AlphaFold 不是终点?
AlphaFold 通过海量数据训练神经网络,直接从蛋白质的氨基酸序列来预测其三维立体结构,但其局限性也逐渐显现:
1、多结构域预测短板 :80% 的人类蛋白质含多个结构域,传统方法常因忽略域间相互作用导致整体构象错误;
2、静态模型困境 :深度学习易输出单一构象,难以捕捉蛋白质动态变化;
3、孤儿蛋白难题 :对缺乏同源序列的蛋白质,预测能力骤降。
这些问题背后,是纯数据驱动方法的先天局限——蛋白质折叠本质上是一个物理过程,仅靠数据拟合,可能丢失底层规律。
D-I-TASSER:让 AI 学会触类旁通的混合智能
D-I-TASSER 的核心创新在于深度融合 深度学习 与 物理模拟 :
多源信息整合 :同时利用 AlphaFold2 的距离图谱、自研的 DeepPotential 接触图谱、AttentionPotential 氢键网络,构建多维约束;
物理引擎迭代优化 :通过蒙特卡洛模拟在能量场中“打磨”结构,突破神经网络不可微函数的限制;
多结构域拆分重组 :首创自动切割-独立预测-动态组装的流程,域内精度达 0.858 (较 AlphaFold2 提升2.8%) ,域间取向误差降低 17%。
D-I-TASSER 蛋白质结构预测流程图
技术亮点:
采用升级版 DeepMSA2 搜索宏基因组数据库,多序列比对 (MSA) 信息量提升 6.75 倍;
在 CASP15 盲测中,对困难靶标的预测精度比 AlphaFold2 高 29.2%;
成功解析超过 3000 个氨基酸残基的超大蛋白质 (例如新冠病毒刺突蛋白) ,捕捉开放/闭合双构象。
CASP15比赛 中 D-I-TASSER 建模结果
人类蛋白质组:新模型打开未知疆域
研究团队用 D-I-TASSER 预测了人类蛋白质约 20000 个功能蛋白中的 19512 个蛋白质结构 (覆盖率为 95%) :
覆盖度创纪录:81% 结构域、73% 全长序列可准确建模,较 AlphaFold 数据库新增 3020 个独有模型;
动态优势显现:无序区域构象多样性比 AlphaFold 高 59%;
功能注释突破:基于预测结构,系统注释了 ATP 结合、铁硫簇组装等关键功能位点,首次揭示 11 号染色体富集视觉相关蛋白。
挑战与未来
尽管 D-I-TASSER 表现惊艳,但也仍面临一些挑战:
孤儿蛋白 (同源序列
尚未涉及蛋白质复合体的结构预测;
计算耗时仍高于纯深度学习模型。
D-I-TASSER 的突破证明了蛋白质折叠的终极答案,或许不在数据或物理的单一维度,而在二者的深度协同,当深度学习遇见物理模拟,我们离破译蛋白质折叠密码又近了一步。此外,研究团队已开源 D-I-TASSER 预测模型 (https://zhanggroup.org/D-I-TASSER/) ,基于 D-I-TASSER 的人类蛋白质组预测数据库也同步开放。
来源:时空探险家