摘要:一个模型竟模拟了超5亿年生物进化,生成全新蛋白质,这项最新研究成果,已经登上Science期刊。蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过无数次随机突变,并通过生物系统的选择机制进行
【导读】 一个模型竟模拟了超5亿年生物进化,生成全新蛋白质,这项最新研究成果,已经登上Science期刊。
蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过无数次随机突变,并通过生物系统的选择机制进行筛选,最终形成那些具有特定生物学功能的蛋白质。 近年来,随着深度学习和语言模型(LM)的发展,科学家们开始尝试将这些工具应用于理解生物系统,尤其是蛋白质。 今天,Science 杂志发表了一项重要研究成果,展示了如何利用语言模型来生成和推理蛋白质序列、结构和功能,并提出了一个名为 ESM3 的多模态生成式模型。该模型不仅能够生成功能性蛋白质,还能够模拟超过 5 亿年的进化过程,生成与自然界已知蛋白序列不同的全新蛋白质。AI解码生物语言
生物体本质上是可编程的。 这是因为自然界的每个生物体都共享相同的遗传密码,构成生命物质基础的蛋白质就是仅由 20 种氨基酸组成。也因此,有人将其比作生命的“字母表”。 生物体中复杂的蛋白质信息蕴含着深层的生物学规律和演化历史。近年来,科学家们通过对基因组序列和蛋白质结构的测序,积累了大量的蛋白质数据,包括数十亿条序列和数亿个结构信息。 随着 AI 技术的发展,科学家们开始尝试利用深度学习模型,如大语言模型(LLM),将这些遗传信息“解码”,以揭示蛋白质序列中隐藏的深层模式和逻辑,并通过这些模式推断、设计全新的蛋白质结构和功能。 当前,已有多个语言模型(如 ProtBERT、ProtGPT)证明了蛋白质序列中的模式能够被语言模型“解码”,从而可以帮助理解其功能。这一领域的研究还表明,随着模型规模的扩大,语言模型的能力和准确性也随之提升。 为此,研究人员使用了超过 31.5 亿条蛋白质序列、2.36 亿个蛋白质结构,以及 5.39 亿个带有功能注释的蛋白质数据来训练 ESM3 模型。该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。 实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。 作为该领域的前沿成果,ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能。 ESM3 还展示了其在多种生成任务上的卓越性能。ESM3 使用了一种名为“生成掩码语言模型”的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。生成需5亿年进化的荧光蛋白
为了展示了 ESM3 模型在生成全新蛋白质方面的巨大潜力,研究人员尝试选择绿色荧光蛋白进行挑战。 绿色荧光蛋白在生物学研究中是非常重要的工具,用于标记和跟踪细胞内的分子与结构。然而,现有的荧光蛋白大多数来自自然界,且其突变通常限制在已有序列周围,很难大幅度改变其序列。在少数情况下,利⽤⾼通量实验和机器学习,科学家仅能够引⼊至多 40-50 个突变(即 80% 的序列同源性),同时保留蛋白的荧光功能。ESM3的未来潜力与应用
ESM3 的另一个显著亮点是其在多模态条件下的生成和控制能力。 也就是说,研究人员能够通过提示特定的蛋白质结构、功能或特定的关键氨基酸,生成满足这些条件的新型蛋白质。例如,模型能够生成具有特定功能位点的蛋白质,同时保持整体结构的完整性。 此外,通过组合不同的提示,模型也能够生成符合复杂要求的蛋白质。例如,研究人员提示蛋白质的二级结构和功能关键词,并生成了与这些提示高度一致的蛋白质。 ESM3 模型的这种提示响应能力和可控特性,使得它在蛋白质设计领域具有高度实用价值,尤其是在生成与现有已知蛋白质具有显著差异的新型蛋白质方面。 在 ESM3 模型的帮助下,研究人员不仅能够设计出新型的绿色荧光蛋白,还能在设计中创新,突破自然进化的局限。这为未来蛋白质工程、合成生物学和药物开发等领域提供了新的可能性,也为蛋白质的设计和功能验证提供了更加高效的工具。 例如,与自然进化相比,ESM3 能够大大加速蛋白质设计的速度,并生成在自然界中无法轻易获得的新蛋白质,而这对于基础研究和应用研究来说都是巨大的突破。 另外,在药物设计领域中,生成具有特定功能的蛋白质是一个重要的研究方向,而通过 ESM3,研究人员能够设计出符合特定靶点的蛋白质,减少实验验证的时间和成本。 而在合成生物学领域中,ESM3 能够为开发新的合成途径提供帮助,生成具备新功能的酶或代谢途径。 研究人员还指出,随着模型规模和数据量的进一步增加,ESM3 有潜力生成更加复杂和创新的蛋白质。未来,ESM3 的应用可能涵盖从基础研究到药物设计等更多领域,为蛋白质工程开辟全新的可能性。 目前,ESM3 已通过 API 推出公开测试版,使科学家能够通过编程或基于浏览器的交互式 app 来设计蛋白质。科学家们可以通过免费学术访问层使用 EvolutionaryScale Forge API,也可以使用开放模型的代码和权重。来源:东窗史谈
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!