AI 科学家获诺奖后：从 CASP 看蛋白质结构预测的机遇与挑战丨GAIR Live

摘要：“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科学领域蛋白质结构预测获得诺奖就是 AI 巨大突破的高光时刻，诺奖之后 AlphaFold 的研发模式已经成为 AI for Science 的样板。”程建林说道。

单序列预测被看好为诺奖「预备役」，多构象、RNA 结构重要程度上升。

作者丨朱可轩

编辑丨陈彩娴

“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科学领域蛋白质结构预测获得诺奖就是 AI 巨大突破的高光时刻，诺奖之后 AlphaFold 的研发模式已经成为 AI for Science 的样板。”程建林说道。

2025 年 1 月 5 日，雷峰网、AI 科技评论GAIR Live 品牌与 CASP 评估的优秀华人团队联合举办了一场主题为“诺奖之后的新篇章：蛋白质结构预测的机遇与挑战”的线上圆桌沙龙。

圆桌主持人为江苏理工学院教授常珊，并邀请了密苏里大学计算机系教授程建林、山东大学教授杨建益、南开大学统计与数据科学学院教授郑伟、浙江工业大学信息工程学院教授张贵军以及江苏理工学院研究员孔韧共同开启了一场深度对话。

常珊是江苏理工学院教授，现任中国细胞生物学学会功能基因组信息学与系统生物学分会委员，中国疫苗行业协会疫苗基础研究专委会委员，中国中医药信息学会中医临床药学分会理事。

程建林教授目前供职于美国密苏里大学计算机系，他 1999 年赴美留学，2006 年在美国加州大学尔湾分校获得了博士学位，并在 2004 年便开始参加 CASP，先后已经参加了 11 届。

杨建益则是山东大学教授，他自 2011 年开始在密西根大学跟张阳教授做结构预测，至今已有十余年。南开大学统计与数据科学学院教授，传染病预防与溯源全国重点实验室成员，郑伟教授也是在张阳教授实验室开始的结构预测的旅程，从 CASP12 起已经参加了5次 CASP——近 10 年的比赛。

张贵军是浙江工业大学信息工程学院教授，做蛋白质结构预测有十几年时间了，先后参加了两届 CASP。孔韧当前是江苏理工学院的研究员，博士开始和常珊教授一同在北京工业大学王存新教授的实验室做分子模拟以及蛋白质复合物结构预测。2015 年回国后，同常珊教授在江苏理工学院组建了研究所，从 CASP13 开始参加。

几位嘉宾都参加了本次第十六届 CASP（Critical Assessment of Protein Structure Prediction）。CASP 作为自 1994 年以来每两年进行一次的全球蛋白质结构预测竞赛，杨建益将其比作诺奖的“孵化器”和科学研究的奥林匹克。

在此次圆桌会上，大家一一分享了参加 CASP 的心得，以及对于领域前沿进展和突破的洞察，单序列结构预测、多构象预测、RNA 结构预测、蛋白质-小分子复合体预测等也成为了下一阶段亟待得到突破的问题：

郑伟说道，“今年整体看 RNA 赛道无论是难度、数量还是细化上变化都非常明显。也可以看出整个领域在蛋白质结构预测发展得相对来说比较成熟的情况下，大家的关注点可能渐渐要往 RNA 结构预测上产生一定倾斜了。”

同时，“多构象也是 CASP 一直想要增加的赛道，但是鉴于往年多构象的数据不太好采集，今年是首次作为独立赛道设置了比赛，预测好多构象对后续的整个动态过程预测很重要。”但当前囿于真实数据的不足，还未能实现大的突破。

而在小分子预测方面，据孔韧介绍，“ AlphaFold 相对于传统对接方法，已经表现出优势，在某些靶点上比传统对接方法要强，将来感觉可以把传统的对接方法和 AlphaFold 的深度学习方法结合起来做综合考虑和使用。”不过， AlphaFold3 在使用模版和选择模型等方面仍存不少提升空间。

值得一提的是，嘉宾们也针对诺奖“预备役”展开了探讨，其中单序列结构预测被屡次提及：

杨建益认为，“单序列结构预测研究的是蛋白质折叠问题，AlphaFold 与 ESMFold 等方法本质上是数据驱动的结果，并未涉及蛋白质折叠问题。如果未来蛋白质折叠问题解决了，也将会是诺奖级的工作。”

程建林同样看好，他表示，“单序列的结构预测是经典问题，当前 AlphaFold3、AlphaFold2 都依赖于多序列输入，但是很多时候只能找到一个序列，能否精确预测出结构，这甚至可能产生第二个诺奖。”

以下是此次圆桌讨论的精彩分享，AI 科技评论进行了不改原意的编辑整理：

1 CASP 16 的进步与突破

常珊：我们这次圆桌专注于结构预测方向，主要是受到 CASP 评估会的启发，结构预测还有很多可以探讨的问题。今天一共有八个议题，四个偏专业，四个偏科普。这次很多华人团队都线下参加 CASP 评估会，对 CASP16 评估会有哪些印象深刻的事情？

程建林：这次 CASP 给我的印象一是参加的团队比以前多，二是大陆科学家取得了了不起的成就，包括在座的老师，这次 CASP 大家在所有领域都达到了世界前列的水平。

杨建益：2024 年是我第一次线下参加 CASP，从观众角度来讲，我印象最深的是会议全程四天，参加会议的人都在，不像很多会议大家参加到一半就走了，这是很大的区别。从组织者到报告人大家都非常专注，CASP 能坚持 16 届 30 多年，我很感动。感觉 CASP 有点像诺奖的孵化器，大量结构生物学家、计算生物学家坚持长期主义，艰苦奋斗，长期量变的积累才有了今天的突破。

郑伟：刚才建林老师提到，中国大陆的参赛团队明显变多，我想补充一下，其实整个亚洲的团队数量都是明显变多的，上届日本的团队不少，这届明显感觉韩国的参赛团队数量不少，整个亚洲的团队数量可能差不多和欧美的持平，甚至快反超了。

近年 CASP 更倾向于解决实际的生物学问题，它的重要意义在于能指导结构生物学整体的发展方向，包括计算结构生物学里我们到底应该做什么、这个方向的发展前景是什么。比赛其实更关注这种本质的问题，而不是为了比赛而比赛。

线下评估会主要在讨论赛制或下一届比赛应该怎么做，这也是很多学者不愿离开会场的原因之一。然后是近些年尤其是 CASP16 工业界课题组参赛热情其实明显下降了，大家可能都去卷大模型了，剩下学术界课题组还在坚守本心（笑）。

张贵军：我今年没有去会场，但看了现场 PPT 以后，非常赞成 CASP 是实验而不是竞赛这一原则，它更加关注的是生物学的 insight，而不仅仅是排名，这也估计是 CASP 评估的魅力所在。

孔韧：我是第一次在线下参加 CASP，现场氛围确实非常好，讨论也十分激烈。以前我们总说折叠问题或者复合物结构预测问题，以 AlphaFold3 为代表的深度学习方法对于结构预测领域的每个特别问题都给出了相应较好的解决方案。

然后我听了第一天主席讲的历史，他坚持在这个方向做了 30 年，整个科研生涯都坚持在解决结构预测的问题，我对此非常感慨，这是我们生命科学领域非常核心的存在，任何一个细胞或动物层面的生物特征，追其根本是生物大分子的结构问题，结构正常或异常和生物学功能关系密切。

往届比赛算法还不太发达，我们解决的主要是单体结构问题，但在整个细胞体系中，更多的是蛋白质 DNA、蛋白质 RNA 或者小分子形成的复杂体系，CASP 也可以看到解决复杂体系问题的趋向了。然后整个作用的过程是动态的，基于此，组委会提出将来要发展算法解决动态结构预测问题，这对生命科学研究来说意义重大。

常珊：我们进入下一个议题，本次比赛在蛋白质预测方面有什么新进步？以及今后的发展趋势是怎样的？这个问题请杨建益和程建林老师来讲一下。

杨建益：蛋白质单体结构预测是 CASP 从第一届到现在一直都有的主题，这一届跟以往的区别在于分阶段预测，分为 phase 0、1、2，phase0 只提供序列信息，但不知道化学计量，这个预测比较有挑战性，如果这部分预测错会使结构预测得很差。第二阶段会告知化学计量信息，第三阶段提供了 MassiveFold 生成的基于 AlphaFold2 的 8000 个结构模型，供预测者挑选，从而改进预测结果。

进步方面其实是增量性的，许多团队都是用 AlphaFold3、AlphaFold2 或自己的方法结合起来，其中有两个 Baseline，AlphaFold3 的 Baseline 是 AF3-Server，AlphaFold2 的 Baseline 是 ColabFold，从 Baseline 来看，AlphaFold3 和AlphaFold2 相比确实有一定改进，但并不显著，但 AlphaFold3 功能更全、可预测更多类型的生物分子结构。

还有个较大的进步在于抗体-抗原复合物结构预测。Dima 团队结合 AlphaFold3、AlphaFold2，以及物理采样方法 CluPro，通过 FFT 对接，生成大量候选结构模型，最后基于聚类和打分，筛选最优结构模型。但评估数据集较小，CASP16 只包含 8 个评估对象，不确定这类方法对于抗体-抗原复合物结构预测的泛化能力。

常珊：其实大家常有讨论在预测过程中，人工干预究竟能起到多大的作用？

程建林：我觉得人工干预在选模型上是很难的事，因为当有几个很不同的AlphaFold2 或 AlphaFold3 产生的结构，看起来都有可能，分数也差不多，很难确定哪个结构更好。

但在有些方面人工干预是有帮助的，特别是化学计量 phase0 的预测，这是个新引进的项目。很多时候我们不知道化学计量，而要预测结构需要先预测化学计量，这部分人工干预是有用的，因为可以去找现有的模板，这个模板提供有效的信息，然后结合这些信息产生结构模型，用模型的分数来评估。

然后，这次还有一个挑战在于 AlphaFold3 是在比赛中间放出来的，在比赛前很多实验室的系统已经在 AlphaFold2 的基础上建好了，那 AlphaFold3 出来要怎么变化或快速反应，能不能马上接受并有效使用，也是影响实验室成绩的因素。郑伟老师就跟我讲他本来用 AlphaFold2 做得很好的，但是完全没有用 AlphaFold3 ，所以表现就稍微下降了一点。

AlphaFold3 其实在大的复合物折叠上功能上要比 AlphaFold2 好，特别是当有很多蛋白质时，AlphaFold2 产生不了很好的结果。此外，我也关注到在蛋白质和小分子复合物的预测中，有一项进展是人工智能方法赶上甚至超过了传统对接方法，下届 CASP 可能整个领域的水平都会上一个台阶。

有关发展趋势方面，感觉结构模型排序问题、选择问题和质量评估问题都很有挑战性。以前领域中主要障碍在于如何产生好的结构模型，现在很多时候能够产生好的模型，抗体、抗原都能产生正确的结构，但无法选择出来，这个问题没有彻底解决。

化学计量的预测也很重要，目前 CASP16 中有的方法已经能在一定的人工支持下实现高性能，达到百分之七十几的精度，但如何自动化以及继续提高是很重要的。还有一个问题聚焦于大的复合体预测，就是当复合体中有几十个或更多蛋白质形成时要怎样预测结构，AlphaFold3、AlphaFold2 也没有完全解决这个问题，这是之后需要突破的重要方向。

另外，单序列的结构预测也是经典问题，当前 AlphaFold3、AlphaFold2 都依赖于多序列输入，但很多时候只能找到一个序列，能否精确预测出结构，这甚至可能产生第二个诺奖。

最后是人工智能，当前人工智能在蛋白质和小分子方面都已取得了突破，接下来会有很多应用，但我比较惊讶的是，在核酸结构预测中人工智能还未超过传统方法，陈世杰老师这次在核酸 RNA 结构预测中取得了最好的成绩，也用了 AlphaFold3，但大量使用的还是传统方法，近两年可能会看到人工智能的超越。

2 蛋白质预测新问题的挑战和趋势

常珊：单序列的蛋白质结构预测有可能揭示了蛋白质结构的一些机制，这是很重要的，核酸结构预测我们后面也会讨论到。程老师刚刚也提到了蛋白质模型的排序、质量评估，还有蛋白质的多构象、复合物的问题，这也是目前比较有挑战的部分，正好引出了我们的第三个议题蛋白质复合物组装以及多构象预测，蛋白质模型质量评估等新问题，请郑伟老师和张贵军老师给大家介绍一下挑战和发展趋势。

郑伟：我先讲一下模型质量评估，目前在复合物结构预测中比较麻烦的问题在于，我们通过大量采样，复合物备选的模型中其实有很多是接近于真实结构的，但还是默认的 QA 打分，模型的置信系数没法把最好的排到前面，在我们开发的方法里，这个问题比较大。刚才建益老师也提到了抗体问题，今年赛后我们看了一下整个模型池，这几个抗体复合物我们也做了大量采样，结果也有很多正确的模型，但它们在排序里很低，这就引出了独立 QA 方式的问题。

今年蛋白质模型质量评估问题上有几个变化，往年大家倾向于做其他参赛者提交的模型排序以及常规的 QA 评测，今年引入了 MassiveFold 的模型质量评估，集成了各种改造版的 AlphaFold2 模型，大概产生 8000 个模型，CASP 有一个赛道就是在这些模型中重新选择结果比较好的。另外，现在的 CASP 可能也更关注模型的自评估，这是从 CASP14 开始引入的，作为最后所有评估参赛表现的其中一个指标，QA 在整个蛋白质结构预测领域其实也日渐被重视。

但这个领域很难，我们今年也尝试了参赛，赛前我们做了一个 QA 评估，想用其他第三方 QA 来给模型重新打分，但基本所有第三方都没法把我们的模型选好，所以我们就想能不能不用 QA 选模型，而是用模型反作 QA，因此我们构建了一个 QA 深度学习模型，然后用我们的模型做为主要的参考对其他模型进行 QA 打分，这又引出了一个问题是 QA 到底应不应该脱离结果预测单独去做，不过这部分问题可能还需要和建林、贵军老师讨论一下。

蛋白质复合物组装这部分除了加入了 Phase0、1、2 之外，整体的体系也在变大，以往复合物组装都是比较小的体系，就是两个蛋白或者这两个蛋白 copy 数不太多，化学计量数也比较小，A1B1、 A2B2 都算比较大的了，整个体系就是一两千个氨基酸，今年大的复合物变得特别多，有的体系里可能包含了十几个蛋白，甚至有的整个体系下来七八千个氨基酸。今年整个复合物的组装，一是化学计量变得更加复杂，二是复合物的体系变得更大，整体感觉变难了。

多构象这块其实是今年 CASP 一直想要增加的赛道，但鉴于往年多构象数据不太好采集，今年是首次作为独立赛道设置，相对其他赛道，多构象不到 20 个结构，数量非常少。多构象在生物学里其实很重要，因为生物过程不是静态的，我们预测蛋白质结构其实大部分都是看某一个结构中间的状态，是静态的过程，但多构象是动态的，这对后续整个动态预测很重要。

但今年一是赛题难度大，二是没有明确的评测指标，还处于起步阶段，多构象预测相对其他赛道更难，数据量比较少，很难训练一个比较常规的深度学习模型预测所有多构象问题，所以处理起来要 case by case，每个 case 都要人工花费很多精力。

从前景上来讲，AlphaFold3 里用的扩散模型的结构模块比 AlphaFold2 基于 Transformer 的结构模块在 Benchmark 的时候效果好些，多构象预测比较好的发展方向是生成模型或 Diffusion 模型。

张贵军：模型质量评估听起来简单，但是实现并不容易，现在的指标体系从单体迁徙到复合物上还存在很多问题，所以在 CASP 中针对复合物的模型质量评估也增加了很多的改进，比如在局部指标增加了 PatchQS 和 PatchDockQ 指标，在 CASP16 中，我们实验室开发了一个基于两个单模型和一个共识方法的 QA 框架，一般来讲，通过共识方法判断模型是否合适会受限于预测方法，因此，从 EMA 赛道的设置的初衷而言，发展单模型方法是重点方向之一。

EMA 整体上需要考虑打分、排序、选择三个不同步骤，它们之间是有区别的。对于一个复合物模型而言，打分的对象有很多种，包括全局、局部、接口残基、侧链、原子的评估分数，然后将这些分数需要整合排序，最后根据生物学需要挑选出感兴趣的模型。目前方式是挑选最佳模型，但在生物学功能问题中时，如果存在多构象问题时，单一的 TOP1 选择方式并不理想。因为复合物模型可能存在两种或以上的稳定功能构象。此外，CAPRI、CASP 在模型质量评估及打分方面的指标也是有区别的。在本届 CASP16 中，除了 Guijunlab-QA 之外，我们实验室还分别开发了 Guijunlab-Complex、Guijunlab-DeepAssembly 两个服务器参加了复合物建模类别，通过盲测分别验证一下 MSA 和模板两个因素在高精度建模中的作用。

郑伟老师的工作做得非常好，这也说明了从目前来看结构预测方法是超前于模型质量评估方法的，预测做得很好，预测的评估也会做得很好。但也会存在全新、预测做得不太好的蛋白，或者参赛队伍间差异性较大的情况。此外，这届 CASP 也考虑到了实验结构的可靠性，从上届开始组委会就已经在考虑是模型预测错误还是实验结构测定误差的问题了，这也表明计算建模方法已经成为实验测定方法的有效环节。

化学计量学的评估也比较重要一个新问题，预测方面出现的新挑战在评估方面都应该考虑。比如二聚体、三聚体、四聚体等计量学问题不仅可以搜模板，还可能从 MSA 中分析得到接口指纹，然后通过指纹判断保守性的方式去解决。如果考虑到模板和 MSA 的话，实际上又归到序列层面相互作用的问题，目前，我们也在针对基于序列的蛋白质相互作用方面开展工作。

另外一个需要关注的挑战是多构象的问题。我一直想跟大家讨论 MSA 在建模和评估方面的双刃剑问题。CASP 多构象建模实践表明，在 AlphaFold 中使用不同的 MSA 配对确实可以产生不同的构象，而且已经有成功的案例，是目前多构象预测的基本流程。但是，从第一性原理的角度来看，多构象信息应该包含在其序列之中。我觉得多构象预测之后应该可以从以下几个考虑，通过蛋白质序列语言模型（也就是 AI）的方式，直接从单序列出发捕获构象变换的语义关系；第二个方面直接在第一性原理上基础上，考虑氨基酸的物理化学性质去预测动态构象。多构象模型精度评估同样需要考虑以上问题，从序列语义、物理化学的第一性原理考虑去研究。最后我想谈谈 EMA 评估的指标体系，除了目前考虑的全局、局部、残基之外，化学计量学的评估指标体系建立也很必要，在算法排序中，选择 5 个模型中的 Best 模型可能更加合适，因为多构象、实验测定误差以及特定生物学场景需求，使得 TOP1 模型的并不是最理想的选择。

还有一个问题我也想和各位老师探讨，从我们现在的 EMA 角度来看，接口残基的辨识率和精度两个指标在 CASP 16 里存在冲突。本届 CASP 16 给出了这两个指标，但填写精度数据时只给了一个地方填写，现有的 PatchQA 和 PatchDockQ 是否有足够的惩罚使得两个指标一致？其 Rank 权重能否真正体现精度就是接口的可能性。最近我们重现了一下，如果不太考虑精度的话，接口辨识成功率是可以提升很多的但精度会下降很多。

在蛋白质复合物预测方面，我们专门从 MSA 改进方面开发了一个 Guijunlab-Complex 服务器，从模板改进方面，开发了一个 Guijunlab-DeepAssembly 服务器进行测试，此外考虑到远程模板的重要性，开发了一个主要用于单体预测的 Guijunlab-Pathreader 服务器。从盲测测试效果上来看，基于 MSA 该进的性能优势还是明显的，这表明目前 AlphaFold2 和 AlphaFold3 在这个领域的成功应用，MSA 的改进仍然是目前的主流方式。

目前需要努力的方向在于化学计量学的预测，这部分工作的开展需要综合考虑 MSA、模板的因素；另外，弱的交互作用的复合物预测也是 AI 方法的挑战性问题，之前我们一直认为缠绕蛋白很难预测，但 AI 出现后已经有了一些成功案例（由于存在较大的接触面积），与此相反，接触面比较小的蛋白如果采用传统组装方法是相对容易实现，传统方法和 AI 的整合，可能是应该此类问题的一种有效方式。

我也想请教程老师，多构象预测方法目前都是以不同的 MSA 配对、选用不用模板、调参生成大量模型，更为理想方法的应该是直接基于单序列。如果是基于 MSA 方式话，在不同的化学计量学下，可能存在的不同聚合关系，这种聚合关系使我们很难去完整预测所有灵活构象。

除了刚才说的这些问题之外，还需要注意的是，设计的算法应该是一个明确的、有界的步骤。目前广泛采用 AlphaFold2、AlphaFold3，虽然考虑了精度，但并没有充分地考虑时间复杂度和空间复杂度这两个算法指标。之后 CASP 比赛中应该会考虑算法的效率问题。另外我觉得目前多构象预测领域存在的挑战还是数据问题，现有的 MSA、模板数据是否能支撑推断出动态信息，或者是否有良好整理的分子动力学模拟的数据。现在 AI 生成模型存在幻觉，但蛋白质是不允许存在幻觉的，PDB 库中的动态结构、良好的 MD 数据将会有效地克服这一问题。

程建林：多构象预测现在有很多人开始做，最近微软也开发了一个软件预测分子动力学的模拟结果，这个领域非常重要，但问题在于没有足够的真实实验数据来训练模型。

理论上来说可以用多构象的实验数据来微调现有的模型，比如微调 AlphaFold2、AlphaFold3，让其产生多构象，甚至从单序列能够产生多构象的结构，但做实验拿到多构象的真实数据比较困难，我不知道现在蛋白质结构 PDB 数据库中有多少这样的数据能支撑我们的训练，这是制约领域发展的重要问题。

质量评估和结构预测放在一起还是分开这个问题也很重要。自我的质量评估是有必要的，但同时从用户角度来说，用户需要用不同的软件来产生模型，然后得到质量的评估，他们更需要的是独立的、甚至是单模型的评估方法帮助他们选择模型。另外是共识和单模型的质量评估方法，共识方法其实是很简单的，就是看模型之间的相似性，然后进行排序，问题在于单模型方法还没有突破共识方法，这是我们需要做的工作。

张贵军：所以应该鼓励单模型方法，而不是共识基线方法，这样可能会压制单模型方法的开发。

程建林：是的，我们也试了几种方法，共识方法、单模型方法和共识、单模型的组合方法，最后在 CASP 的比赛中共识方法还是超过了其他方法，虽然单模型和共识结合的方法在我们自己的实验中比共识方法好。共识方法目前没有什么大的突破，但是设了一个很高的界限，其他的方法还没有系统地超过它，如果有一天单模型或少模型的方法能超过共识方法的话，这个领域才算取得了重要突破。

张贵军：那现在自评估 AlphaFold2 里对一些无序片段的评估质量并不是太高，是不是意味着存在独立于 AF 的第三方的预测和评估方法是非常有的必要的。

程建林：我觉得完全有必要，现在自评估其实也不错，但有时高估一些模型的质量，所以需要独立的质量评估。预测问题是产生结构模型，而评估是选择最优模型，这是两个不一样的问题，都非常难，甚至难度可能是一样的，只不过现在在结构产生上取得了很大的进展，而评估还需突破，但突破是可能发生的，目前评估的重要性已经被 CASP 提到了一个高度。

3 RNA 结构预测新进展

常珊：我们进入下一个议题，在 RNA 结构预测、核酸复合物结构预测方面，预测的数量和难度是不是都在提升？AlphaFold3 是否有明显优势？请郑伟老师和杨建益老师来介绍一下进展。

郑伟：我们今年是第一次做 RNA 赛道，今年 CASP 拔高了 RNA，上一届 RNA 只有十几个 target，大部分集中在 RNA 单体上，复杂度也不高，可能一两百个碱基已经算比较多，但这届 RNA 或 DNA 相关共有 60 多个。

RNA 和蛋白质复合物结构预测有点像，也分为 phase0 和 phase1，phase0 不告知几聚体，phase1 再告知，今年我们猜 phase0 不会太大，但意外的是大的 RNA 复合物比比皆是，14 个或 8 个 RNA 形成的复杂聚体非常多。

RNA 整个体系也很大，有好几个 target 都超过了 5000 个氨基酸，无论是通过我们自己的方法还是 AlphaFold3，都比较难预测。因为当时 AlphaFold3 的 Server 的最大提交长度阈值大概设在 5000，很多 target 超过 5000，参赛者不太好预测。今年 RNA 细分赛道也很多，去年只有 RNA 单体，复合物很少，而且去年只有两个蛋白质-核酸复合物target，今年大概十几个 target。

核酸小分子上次也完全没有 target，今年也设了几个，整体看 RNA 赛道无论是难度、数量还是细化上变化都很明显。也可以看出整个领域在蛋白质结构预测发展得相对比较成熟的情况下，大家的关注点渐渐要往 RNA 结构预测上产生倾斜了。

另外 AlphaFold3 在这个赛道上没有优势，不光这个赛道，AlphaFold3 在各个赛道上整体排名在 6 ~ 10 名之间，整体精度没那么理想，所以在结构预测这个领域，即使大家拿到了相同的 AlphaFold3 的 Server，用的过程中经验也很重要，这也是大家排名不一样的原因。

蛋白质核酸复合物结构预测是我们今年比较感兴趣的方向，往届受限于方法，很少有做蛋白核酸复合物的方法，发展主要在近两年，之前也有一些基于 Docking 或其他的方法，但纯 AI 完全从头预测是从 David Baker的 RosettaFoldNA 提出来之后开始的，然后 AlphaFold3 把这个体系发展得相对来说比较好，但整体看这个领域还较难，主要原因在于有效的、能够用来训练的蛋白质核酸复合物数量不太多，大概 3 ~ 5 千个，这是制约蛋白质核酸复合物结构预测精度的原因之一。

今年其实还有几个 target 是抗体蛋白加核酸的复合物，整体来看，大家预测出的结果比蛋白质抗体-抗原复合物精度差很多，尤其在核酸这部分，基本大家预测的结果相对来说很差。

杨建益：我再补充一下，上一届 CASP 才引入 RNA，但那时只有 12 个 RNA，其中 8 个天然，4 个人工设计，人工设计最长有 700 多个核酸，天然的RNA都比较短，大概在几十到一百左右。

这一届类别明显更多，包括复合物、小分子，甚至有 RNA 跟水分子的互作，整体上预测起来非常困难，尤其是复合物类型。我们课题组做的 trRosettaRNA 主要针对 RNA 单体而言，当前可用 AlphaFold3 与 RoseTTAFold NA 预测蛋白-RNA 结构，但其性能依然不理想。

就 RNA 单体而言，预测跟上届比不见得更难，上届难在人工设计，这部分无论 AI 还是传统物理方法都做不好自动预测，但上一届比赛中熊鹏团队把人工设计的 RNA 做的很好。这届 RNA 的精度不比上次低，我们自己方法的在 RNA 单体的平均 RMSD 大概 15 埃，上一届是 20 埃以上，主要是人工设计的 RNA 做得不好，RMSD 都是三四十埃左右。

CASP16 的 RNA 通过 AI 预测的精度还是可接受的，但还没那么精准，人工经验还是比较重要，这方面和蛋白区别特别大，在蛋白结构预测中，人工干预不一定有特别大帮助，但 RNA 中人工干预挺关键的，排名前三的团队都是人工干预做了很多修正，包括人工构建二级结构、模拟产生数据后人工筛选、基于 MSA 调整结构等，过程非常繁琐，AI 很难把所有方面都考虑到。

自动预测好处在于会有许多人受益，我们提供了 trRosettaRNA 服务器，当用户输入的序列在训练集中存在相似数据时，自动预测的结构大概率会比较准确。自动预测的优点在于可以服务更多用户，我们服务器每天都会收到不少新任务。

自动预测是未来发展方向，虽然现在 AlphaFold3 优势不明显，但后面应该会越来越好，它精度不高的原因还是已有实验数据有限，刚才郑伟提到大概有几千个数据，但这些数据很多都来自同一类 RNA 或复合物，其中特别多 tRNA，我们服务器也经常收到这类序列，预测结构都挺可靠，但比较新的 RNA 做得并不好。蛋白结构预测六七十年积累下来数据库很大，有 20 多万个结构供 AI 学习，但 RNA 数据还太少，非冗余的数据就几百个，学不好可以理解。

上届比赛前几名都没有用到 AI 预测，但这届前几名都用 AlphaFold3 或 trRosettaRNA 辅助筛选或模拟，AI 的价值将会越来越大。我相信 RNA 数据积累是个过程，蛋白结构预测早期其实结构也不准确，现在的进步速度应该比之前要快，下一届应该会有更多的 RNA 参赛团队，结构预测精度应该会越来越高。

常珊：自动化的 RNA 结构预测非常重要，在 AlphaFold3 的文章里，其实在 CASP15 比较 RNA 结构预测的时候，结果其实差距不大，人工组还更占优一些，在小分子预测方面则显示出有比较大的提升，就像程建林老师说的，确实这一届的评估也展示了配体预测中 AlphaFold3 作为 Baseline 的结果，人工组没有超过 AlphaFold3，这也是有挑战的问题，请孔韧老师和程建林老师简单介绍一下。

孔韧：上一届比赛中更多是一个蛋白结合一个小分子，或者一个蛋白同时结合多个小分子，这样的问题更像是这个生物体系中蛋白质跟辅因子结合的预测问题，我们比赛结果非常好，因为用的是 template based docking的方法，那时 AlphaFold 还不能预测蛋白小分子体系，在这种蛋白与辅因子结合的问题中，有很多高度类似 template 能被找到。

这届比赛其实引入了更加现实的问题，就是一个蛋白作为一个药物靶点，我们通常在药物发现的过程中需要去评估它跟多个不同化学结构小分子结合的模式问题，以及结合的强度问题。这其实更接近于我们在小分子开发中会碰到的问题，这次 AlphaFold3 没有作为参赛者参赛，但在评估实验中表现非常不错。

这次一共有 L1000 到 L4000 四个 target，分别是四个药靶对应几十个到上百个小分子，AlphaFold3 在 L3000 中表现超过所有参赛组，在 L4000 上表现没那么好，在 L2000 和 L1000 这两个同源蛋白中，它在 L2000 上的表现稍微好一点。整体来看，AlphaFold3 已经表现出优势，在某些靶点上比传统对接方法要强，将来我们真正做药物研发时，可以把传统的对接方法和 AlphaFold 的深度学习方法结合起来做综合考虑和使用，产生更多有可能正确的 pose。

而这又带来这么多正确 pose 如何挑选的新问题，蛋白质结构预测中也会碰到类似问题，通常如果用 template base 方法很简单，就是如果能够在 PDB 库中找到类似的小分子、化学 atom type，或者类似的周围的 residue type 的话，根据相似性打分去评估，类似度较高的 pose 正确的可能性较大。

正确结构挑出之后，其实比赛也分了两个阶段，第一阶段是预测小分子的结合模式以及结合亲和力，第二阶段是告知全部晶体结构和结合模式，直接预测亲和力就行。但目前还没有特别好的方法能评估小分子，或者多个小分子对同一靶点的结合亲和力，将来我们也想往这个方向做。

程建林：孔老师提到 AlphaFold3 现在可能超过了其他方法，但其实还是有很多地方可以提高，比如怎么用模板、怎么选择模型之类的，同时也会有其他竞争方法出现，最近有方法自称超过了 AlphaFold3，但也还需要客观评估，另外这些方法各有所长，有没有可能结合在一起得到更好的方法也是可以研究的问题。

另外我的学生在评估主要的蛋白质小分子复合体预测的方法时，发现了一个问题是很多方法在训练之后的测试过程中，如果小分子跟以前训练数据中有一定相似性的话，可能效果比较好，如果不一样，性能就不可预测，那么要怎样提高这些人工智能方法的通用性，这是一个需要解决的问题。

蛋白质小分子结合亲和力的预测对筛选药物而言也非常重要，提供一个药物靶点，怎样筛选各种和蛋白可能有相互作用的小分子药物，哪怕不能预测结构，只要知道亲和力也够了。但这个领域还处于非常初级的阶段，其实跟排序、质量评估都是相关的，是个非常困难的问题，就像在所产生的上万个模型中随机挑选最优，这样概率会非常低。

4 结构预测的蓝海方向

孔韧：我的领域属于 CADD（药物辅助设计），后来因为 CASP 有了小分子赛道，我才更多参与到 CASP 的小分子结构预测中。CADD 领域也有很多传统 docking、binding affinity 以及结合自由计算方向的专家和团队，大家可以更多参与到 CASP 比赛中，因为 CASP 的数据集公布了结构、亲和力，可以用其数据集测试自己公司、课题组的 pipeline 是不是能很好地预测 binding affinity，我非常想看到这个方向有没有比较好的解决方案。

常珊：孔老师的观点正好和下个问题相关，就是 CASP 评估赛对产业的实际应用，比如对合成生物产业或生物医药的产业影响是什么？可以请张贵军老师和孔老师再给我们分享一下。

张贵军：只要跟生物有关的都和结构密不可分，这几年来医学、药学、农学领域的专家对结构都非常关注，因为它能揭示重要的生物学功能机制。

对于药学而言，药物靶标发现是比较重要的应用，随着目前焦点从的静态构象转向多构象研究，，那么多构象之中的某一个可能是潜在的靶点。医学上抗体的进展也非常迅猛，这意味着在疫苗的设计中，包括检测、诊断、抗体治疗上，都有很多东西能探索。

合成生物学方面，结构的研究直接引起了产业的飞速发展，包括在可降解材料、绿色制造等领域，将成为有效应对全球变暖问题的有效手段。今年都快放寒假了，但是杭州天气还没有去年那么冷，环保问题是事关人类生存的重大挑战性问题。。

孔韧：结构对生命科学相关产业都会带来一定影响，现在只是开始，随着工具应用变广，应用在具体问题上变多，影响会更深刻。

我们之前跟做基础医学的老师有合作交流，他们在解释很多蛋白功能重要性问题时，通常会用 coIP 或者 WB 来做，看两个蛋白是否结合、谁跟谁结合，我们建议可以用结构预测的方法从三维蛋白质结构的角度，看蛋白质结构跟功能间的关系、结构，以及如何结合另一个蛋白，哪个结构发挥了作用，哪个界面残基重要，用这些信息帮助他们做下一步实验设计。如果这样的结合对细胞表型、疾病表型有重要影响的话，还可以涉及多肽、蛋白、抗体、小分子去影响这个过程，最终关联到药物研发上。

合成生物学领域现在也非常热，当中就是用细胞工厂来合成想要的东西，细胞工厂里具体的执行者是蛋白质、代谢网络、代谢酶，其中限速酶是谁？限速酶是如何限速的？怎样改进限速酶的催化效率？限速酶跟它的产物如何结合？如果能知道底物结合与产物释放的动态过程，就可以找出其中的关键残基，对酶改造进行合理设计，这也是可以想象的方向。

常珊：我最近看到 Baker 在采访中指出了大概十几个有可能使用结构预测或者蛋白质设计的蓝海领域，是大家可以去关注的方向。还有哪些方向是诺奖之后，结构预测更好的发展方向，请程建林老师和杨建益老师分享一下。

杨建益：我觉得单序列预测如果把蛋白质折叠问题解决了，将是诺奖级的工作。要从单序列去预测结构，深入探索蛋白质折叠机理和问题还有很长的路要走。以后肯定会是 AI 主导的，通过 AI 不断迭代、更新，精度提高的同时，不断加深对折叠机理的理解。

此外，现在 AlphaFold 解决的是静态结构预测问题，现在大家关注的重点逐步从静态转为动态。因为蛋白质要执行生物学功能，主要是因为它在动，虽然我一直觉得只研究一条蛋白质的动态没有太大的意义，重点还是在复合物，因为动是有原因的，比如说跟小分子、蛋白、核酸互作。所以在复合物背景下研究动态构项变化是重要方向，但对于预测者、评估者来讲都很困难。

程建林：获得诺奖是对我们整个领域的承认，会产生很大影响，吸引很多人来学习结构预测。我觉得还有几个可能达到诺奖级别的工作，比如单序列结构预测，然后 RNA 如果能做到 AlphaFold2 当年对蛋白质结构预测的水平就已经达到很高的精度了，这也是诺奖级别的工作。

蛋白小分子复合体结构预测，虽然现在 AlphaFold3 属于领先状态，但它的精度还远远没有达到解决大部分问题，不像它 90% 解决了蛋白单链的结构预测问题。蛋白质小分子其实还有很多工作要做，这个问题非常重要，因为现实意义是巨大的，对制药、疾病的理解是非常重要的，如果能够取得突破性的进展，也是达到诺奖级别的。

得到诺贝奖最重要的因素在于要有巨大的、突然性的，颠覆性的突破，还有其实这是人工智能在科学领域里获得的迄今为止第一个最重要的突破，AlphaGo、ChatGPT 都是新的代表性时刻，而在科学领域里的时刻其实就是蛋白质结构预测，已经成为科学中的样板。

很多人以前都不关心蛋白质结构预测，现在他们都要在自己研究的疾病或生物系统里预测蛋白质结构，比如农业里设计育种，使其更有抗旱性，能源领域设计酶，把生物废料转成能量。另外，很多生物科技公司甚至大公司也在投入其中，他们会使用、继续开发这些工具，或者应用到各个不同的领域里，所以它已经成为非常有潜力的领域，但从学术界的角度来讲还存在许多有挑战性的研究问题待解。

常珊：诺奖确实是对我们结构预测领域的一个很重要的肯定，之前很少人会关注这个领域，或者大家不是特别了解，这也是我们举办这次圆桌会议的重要原因，结构预测获得诺奖肯定以后，我们需要让大家知道诺奖到底为什么颁给结构预测，结构预测可以帮助学术研究、产业界做什么事。

目前中国团队参加 CASP 的热情也很高，所以我们也在讨论有没有可能让中国来承办一次，在中国承办的话，会更大地扩大结构预测的影响力，这方面想请杨建益老师和郑伟老师来谈一下建议。

杨建益：CASP 发邀请信的时候我就问过下一届能不能在中国办，他们回复很感兴趣，这次会议最后一天的预测会议中，也有人建议在亚洲举办 CASP17。Joun Moult 回复邮件说这一届比赛的中国参赛者仅次于美国，日韩团队也很多，他很感兴趣，不过还需要进一步讨论。

郑伟：下一届感觉因为会议组织受国际政治的因素影响比较大，会不会选在中国其实不太好说，估计日韩概率会比较大，但是也不是说没希望，要集体跟组委会反映，最大努力争取。

常珊：评论区也还有一些问题需要讨论一下，大家比较关心结构预测对于突变后蛋白质的预测效果如何？或者对于蛋白质突变中比较小的细微的序列变化，会不会有比较好的预测结果吗？还有对于 Loop 区的预测有没有一些比较好的建议？有没有老师可以解答一下。

程建林：我回答第一个问题。目前对突变的结构预测还不是特别成功，因为 AlphaFold2、AlphaFold3 主要是用对齐的多序列作为输入，所以如果只有几个氨基酸发生变异之后，其实它不能敏感察觉变化，产生的结果和用原始序列是差不多的，我们今天没有讨论到，但这是之后结构预测要解决的重要问题。

郑伟：我觉得点突变分两个方向，一是点突变对结构影响比较大的，二是点突变对结构影响并不那么大的。点突变对结构改变比较大的方向，我们是有一些 case 能做的，CASP15 也有一个点突变复合物，很多团队都预测得还不错，但点突变对结构改变比较大的 case 现在不是太多。而点突变对小构项的影响，如果从结构预测看的话，其实在侧链是能反映出来的，但这种变化能有多少被真实反应很难说，点突变问题需要以结构预测加生物学验证的结合手段为主，这是比较正确的方向，现阶段想依赖 AI 去解决比较难。

Loop 区我觉得本来就是比较灵活的区域，相对来说比较难预测，建议可以多预测一些模型，然后把 Loop 区整体对齐再看一下，然后还是需要结合生物学的验证经验筛选模型，完全依赖于 AI 去预测也是很难的。

常珊：Loop 区的构项本身也很多，有点类似于蛋白质多构象的预测问题，所以很难说有哪个构项是占优的，本身还是有一定不确定性的。

杨建益：同意。Loop 的话跟执行功能是有关的，单纯考虑一个蛋白说Loop 准不准意义不太大，这些区域预测精度低非常正常，即使做实验也无法获取可靠的结构。应该要考虑它与结合对象的互作用，看通过结合其他对象能否稳固 Loop 区的结构。