诺贝尔化学奖之后:AI设计蛋白质更流行了,但这些蛋白质能用吗?

摘要:8月中的一个周六早晨,Alex Naka在女友的厨房里开始了他称之为“黑客小马拉松”的工作。依靠他的笔记本电脑、咖啡,一度还用上了约80个云端人工智能(AI)处理器,他生成了一大堆计算机设计的蛋白质,用途是阻断某些肿瘤中突变的某个细胞受体。

本篇《自然》长文共3098字,干货满满,预计阅读时间10分钟,时间不够建议可以先“浮窗”或者收藏哦。

众多蛋白质设计大赛想从天马行空的创意中筛选有用的蛋白质。但科学家们更希望这个领域能迎来一场革命。

插图:Ibrahim Arafath

8月中的一个周六早晨,Alex Naka在女友的厨房里开始了他称之为“黑客小马拉松”的工作。依靠他的笔记本电脑、咖啡,一度还用上了约80个云端人工智能(AI)处理器,他生成了一大堆计算机设计的蛋白质,用途是阻断某些肿瘤中突变的某个细胞受体。

Naka作为一名蛋白质工程师,平日里在加利福尼亚州的一家医疗技术公司工作。他向一个新启动的蛋白质设计竞赛提交了最有希望的十个作品,看着这些参赛作品在排行榜上节节攀升。

瑞士生物技术初创公司Adaptyv Bio举办的这场竞赛,是过去一年多里出现的至少五个类似比赛之一。大多参赛者都在使用诸如AlphaFold和类似聊天机器人的“蛋白质语言模型”等AI工具,这些工具的流行度和功能都在爆炸式增长,并且AlphaFold有三位幕后研究人员因此获得了今年的诺贝尔化学奖。这一定程度上源于人们的期待:新造出的蛋白质有望成为更有效的药物、工业酶或实验室试剂。

但科学家们表示,设计蛋白质的热潮更多带来了混乱。它们的设计速度远远快于实验室合成和测试的速度,这让人很难判断哪些方法真正有效。

竞赛过去不时推动科学进步,尤其是在蛋白质结构预测领域。新的竞赛潮降低了准入门槛,吸引了来自世界各地的人们进入蛋白质设计领域。它可能加快验证和开发的步伐,或许还有助于培育一个新领域。巴塞罗那基因调控中心的计算生物学家Noelia Ferruz Capapey表示:“这将推动领域进步,更快地测试各种方法。”

科学家们表示,但这些竞赛也得解决一些阻碍,例如出什么题,还有如何客观地决出优胜。制定好规则很重要。慕尼黑工业大学的计算生物学家Burkhard Rost说:“如果竞赛执行不当反而有害。”

蛋白设计的竞争

蛋白质设计竞赛的灵感,部分来自于30年前一场助推了生物学AI革命的竞赛。1994年以来,结构预测关键评估竞赛(CASP)要求科学家们根据氨基酸序列预测蛋白质的三维结构。该竞赛由马里兰大学的计算生物学家John Moult和加州大学戴维斯分校的计算生物学家Krzysztof Fidelis创立,竞赛通过用计算预测结果比照未发表的结构模型来确定胜者。

2018年,DeepMind(现为Google DeepMind)凭借第一版蛋白质结构预测工具AlphaFold赢得了CASP。其下一代版本AlphaFold 2在2020年表现非常出色,以至于Moult宣称简单蛋白质的结构预测已基本上被解决。竞赛自那以后转向新的挑战,例如预测由多个互作蛋白质组成的蛋白复合物的结构。

如今,就像CASP革命性地推动蛋白质结构预测领域一样,许多人希望这些竞赛也能够推动蛋白质设计领域发展。Rost说:“如果没有CASP,就不会有AlphaFold。我们需要这些竞赛来正确地做事并激励人们。”

六月,Rost 和几位同事赢得了Align to Innovate组织的蛋白质工程大赛。Align to Innovate是一家非盈利的开放科学国际组织。大赛包括两个部分。在首轮中,由参与者预测酶的不同变体的特性。第一轮表现最好的团队进入下一轮,他们需要重新设计一种分解淀粉的酶,通过实验来确定最佳的设计。2025年的比赛目前正在筹备中。

加拿大的生物科技公司Liberum Bio和Rosetta Commons合作举办的冬季蛋白质设计竞赛于四月宣布获胜者。Rosetta Commons是一个主要由维护蛋白质模型工具的科学家们组成的社区。该项赛事的任务是重新设计一种现有的蛋白质——一种广泛用于蛋白质纯化的植物病毒酶——使该分子变得更加高效。

还有两个竞赛要求参与者设计全新的蛋白质。Adaptyv主办的竞赛在寻找能够附着在生长激素受体EGFR上的蛋白质,它在许多癌症中过度活跃。90名参赛者向比赛提交了超过700种设计。

还有Bits to Binders,参赛研究人员需要设计用于T细胞癌症疗法的小型蛋白质。主办方是德克萨斯大学奥斯汀分校研究生领导的BioML学会。比赛吸引了来自42个国家的64支团队——包括来自尼日利亚、哥伦比亚、伊朗和印度的团队。约18000种设计正在进行测试,预计在2025年初公布结果。大赛联合组织者、该校生物化学博士生 Clayton Kosonocky说:“我们对参赛人数感到很惊讶。”

欢迎新手加入

Adaptyv的首席执行官兼联合创始人Julian Englert表示,许多参赛者在蛋白质工程和设计领域工作。但这次竞赛也吸引了一些没有专业生物学背景的人,其中一位来自伊朗的参赛者甚至用游戏电脑来做预测,因为他手头没有更强的算力了。

Englert表示,非资深研究者所提交的高质量作品让他想起苹果、微软等科技巨头的“车库创业”时代。“他们原本可能需要两年的学习和加入实验室才能达到开始工作的水平。这里他们一个周末就能做到。”他设想,未来自由职业的蛋白质设计师可以竞争完成公司、学术实验室及其他组织提出的分子设计任务。

竞赛也能以别的方式节省时间。Rost团队成员、慕尼黑工业大学的机器学习专家Michael Heinzinger表示,快速获得实验结果是他参与竞赛的一个重要动机。他说:“不然我们还得花时间申请经费。对我来说,省时间就是奖赏。

Align to Innovate比赛不提供物质奖励,但其他竞赛会有一些奖品。“Bits to Binders”竞赛的获胜者将获得3D打印奖杯,上面有他们的设计,还有进行比赛实验的赞助商LEAH Laboratories的一些商品,并有合作机会。

销售实验室自动化蛋白质测试的Adaptyv公司为获奖者提供了少量免费实验和赠品。Rosetta冬季竞赛的优胜者则分享5000美元奖金。

近期启动的Evolved 2024竞赛很吸引眼球,第一名团队将获得价值25000美元的亚马逊云服务和来自OpenAI等公司的数千美元消费额度。竞赛赞助商包括纽约的风险投资公司Lux Capital,该公司已向科技公司投资超15亿美元,以及已获1.42亿美元投资的生物AI初创公司EvolutionaryScale。

大奖之外

决出胜者并不容易。Evolved 2024比赛更像是一场黑客马拉松,团队要解决一些宽泛的问题,比如预测药物疗效和安全性——并由专家小组主观评分。Align to Innovate创始人、生物工程师Erika DeBenedictis表示,即使是在蛋白质设计目标更明确的竞赛里,“也不容易决定获胜者”。这个比赛根据设计蛋白质的活性、稳定性及可制造程度(或是否可制造)来评判。“设计蛋白质有很多种失败的方式。”她说。

科学家表示,如果竞赛要在蛋白质设计上有所突破,它们需要解决更广泛领域的挑战。与结构预测不同,蛋白质的设计标准在不同任务间差异可能很大。设计一种特定的酶的方案可能无法适用于其他蛋白质,如疫苗成分。

Rost警告称,如果比赛走了死胡同,比如过于狭隘地评估设计,可能会对领域产生负面影响。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter表示,假如参赛者对他们的方法保密,科学家也可能无法充分受益于蛋白质设计竞赛。“如果团队不交流他们的方法,就没有太多机会了解什么有用、什么没用。”

目前似乎还没出现这种问题。大多数竞赛鼓励甚至要求参与者描述他们的方法。竞赛还可能有助于汇聚来自不同领域的科学家,包括开创蛋白质工程方法的生化实验室和自然语言处理中崭露头角的机器学习专家。Gitter说:“为了更大化影响力,竞赛组织者应认真考虑如何创建一个社区。”

当Adaptyv竞赛结果在九月下旬公布时,Naka有些失望。尽管他提交的十个作品看起来都很有希望,但没有一个在实验室中有用。在得到测试的147个设计中,只有5个真正与目标分子结合,有超过50个根本合成不了。

这其实不算太差:过去设计EGFR结合分子的成功率更低。“在蛋白质工程领域,这种失败率是正常的。”Naka说。获胜者是洛桑联邦理工学院的结构生物学家Martin Pacesa和Lennart Nickel,他们发布了一篇文章描述了他们的方法,并开源了代码(M. Pacesa et al.,预印本发表于:https://doi.org/nmfm; 2024)。Adaptyv以此为基础,已经启动了第二场竞赛。

Naka希望自己早点开始准备比赛作品就好了。他将他的黑客马拉松描述为“2型乐趣”——当时痛苦,过后回忆却很美好。通过竞赛,他与志同道合的科学家建立了联系,包括Gitter。他说:“这感觉就像准入门槛变低了,让许多新人参与到蛋白质设计中。我以后肯定还会继续参加类似的活动。”

原文以AI has dreamt up a blizzard of new proteins. Do any of them actually work?标题发表在2024年10月15日《自然》的新闻特写版块上

来源:人工智能学家

相关推荐