《Science》:用大语言模型模拟5亿年生命进化

360影视 2025-01-17 15:12 1

摘要:超过三十亿年的进化形成了一幅由天然蛋白质编码的生物学图景。本文展示了在进化数据上大规模训练的语言模型可以生成远离已知蛋白质的功能性蛋白质。我们介绍了ESM3,这是一种前沿的多模态生成语言模型,可以对蛋白质的序列、结构和功能进行推理。ESM3能够响应复杂提示,结

论文标题:用大语言模型模拟5亿年的进化

摘要:

超过三十亿年的进化形成了一幅由天然蛋白质编码的生物学图景。本文展示了在进化数据上大规模训练的语言模型可以生成远离已知蛋白质的功能性蛋白质。我们介绍了ESM3,这是一种前沿的多模态生成语言模型,可以对蛋白质的序列、结构和功能进行推理。ESM3能够响应复杂提示,结合其多种模态,并通过校准显著提高生成结果的精确性。我们利用ESM3生成了荧光蛋白。在合成的生成结果中,我们发现了一种与已知荧光蛋白具有远距离相似性(58%序列同一性)的明亮荧光蛋白。我们估计,这相当于模拟了5亿年的进化过程。

近日,科学界迎来了一项重大突破,人工智能公司 Evolutionary Scale 在《Science》杂志上发布了其最新的研究成果 ——ESM3 模型,该模型能够模拟超过 5 亿年的自然进化过程,为生命科学领域带来了前所未有的变革与机遇。

ESM3 模型由人工智能初创公司 Evolutionary Scale 研发,旨在帮助科学家理解、构思和创造蛋白质。研究人员使用了超过 31.5 亿条蛋白质序列、2.36 亿个蛋白质结构,以及 5.39 亿个带有功能注释的蛋白质数据来训练 ESM3 模型,该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。

重大突破:模拟 5 亿年进化生成全新蛋白质

在本次研究中,ESM3 模型展示了其强大的能力,成功设计出了全新的绿色荧光蛋白。绿色荧光蛋白在生物学研究中是非常重要的工具,用于标记和跟踪细胞内的分子与结构。然而,现有的荧光蛋白大多数来自自然界,且其突变通常限制在已有序列周围,很难大幅度改变其序列。

为了突破这一瓶颈,研究人员通过对 ESM3 模型进行特定的功能提示,尝试生成一个全新的绿色荧光蛋白,要求该蛋白的序列与已知的绿色荧光蛋白序列相似性较低,但仍要保持其荧光特性。ESM3 模型在接收到这些提示后,会生成一个蛋白质的三维结构,尤其是确保活性位点的氨基酸位置协调良好。然后,基于生成的结构,模型进一步推理生成合适的氨基酸序列,并尝试保持活性位点的正确结构。

经过一系列的生成和优化步骤,研究人员获得了多个新的绿色荧光蛋白,其中一个特别的设计被命名为 esmGFP。这个全新的蛋白质与现有的荧光蛋白之间的序列相似性为 58%,与最接近的天然蛋白之间的序列差异为 107 个氨基酸,序列相似性为 53%。研究人员还进一步验证了生成的绿色荧光蛋白是否具有实际的荧光功能,结果表明,尽管 esmGFP 发光特性有所延迟,成熟时间较长,但最终的荧光亮度与已知的绿色荧光蛋白相似,且具有稳定的荧光特性。

研究人员还提供了时间校准系统发育分析,指出如果通过现有蛋白的自然界进化过程得到 esmGFP,则需要超过 5 亿年的等效时间。这一成果充分展示了 ESM3 模型在模拟生命进化和生成全新蛋白质方面的巨大潜力,为蛋白质设计和药物开发开辟了新的路径。

多模态能力:开启蛋白质研究新视角

ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能。它使用了一种名为 “生成掩码语言模型” 的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。研究人员通过随机掩码并生成序列和结构,对比生成结果与真实蛋白质的匹配情况,发现模型能够生成高质量的蛋白质序列和结构,其与真实结构的平均差异仅为 0.5Å。

此外,ESM3 能够通过不同的提示生成具有目标功能的蛋白质,这为蛋白质设计带来了高度灵活性。与传统的三维空间中的复杂建模方法不同,ESM3 将三维结构离散化为 token,这使得它能够与序列和功能信息一同被输入模型进行处理,这种方法避免了复杂的三维空间扩散架构,使得生成过程更加高效、可控。

ESM3 的多模态能力在蛋白质研究领域尚属首次,为科学家们提供了一个全新的视角和工具。通过这种多模态的分析和生成方式,科学家们能够更深入地理解蛋白质的序列、结构和功能之间的关系,进而更好地进行蛋白质设计、药物研发等工作。例如,在药物设计领域中,生成具有特定功能的蛋白质是一个重要的研究方向,而通过 ESM3,研究人员能够设计出符合特定靶点的蛋白质,减少实验验证的时间和成本。

开源与合作:推动全球科研创新

ESM3 模型的开源策略,加上与 AWS 和 NVIDIA 等云计算平台的合作,极大地方便了全球开发者和科研人员的应用和部署。模型代码已在 GitHub 上公开,尽管 API 目前还处于内测阶段,但开放科学的精神已经体现在 ESM3 的推广中。

这种开源和合作的模式,将吸引更多的科研人员和开发者参与到蛋白质研究和生命科学领域的创新中来。全球各地的科学家们可以利用 ESM3 模型进行自己的研究和实验,进一步挖掘该模型的潜力,推动生命科学领域的快速发展。同时,与云计算平台的合作也为科研人员提供了强大的计算支持,使得他们能够更高效地进行模型训练和数据分析。

行业影响:加速生命科学领域发展

ESM3 模型的出现,对生命科学领域产生了深远的影响。在蛋白质设计方面,它打破了传统方法的局限,能够生成与自然界已知蛋白序列不同的全新蛋白质,为蛋白质工程提供了更多的可能性。在药物开发领域,ESM3 可以帮助研究人员快速设计出具有特定功能的蛋白质药物,缩短药物研发的周期,降低研发成本。在合成生物学领域,ESM3 能够为开发新的合成途径提供帮助,生成具备新功能的酶或代谢途径,推动合成生物学的发展。

此外,ESM3 模型的成功也为人工智能与生命科学的交叉研究提供了一个范例。它展示了人工智能技术在模拟和理解自然界复杂过程中的巨大潜力,为未来更多的跨学科研究提供了借鉴和启示。随着人工智能技术的不断发展和生命科学领域对大数据分析和预测的需求增加,这种跨学科的研究模式将成为未来科学发展的重要趋势。

然而,ESM3 模型的应用也面临一些挑战和问题。例如,模型的准确性和可靠性还需要进一步提高,特别是在处理复杂的生物系统和疾病机制时。此外,随着模型的广泛应用,数据隐私和安全问题也需要引起足够的重视。科研人员需要在利用模型进行创新研究的同时,关注和解决这些潜在的问题,确保模型的安全和合理使用。

未来展望:潜力无限的 ESM3 模型

随着模型规模和数据量的进一步增加,ESM3 有潜力生成更加复杂和创新的蛋白质。未来,ESM3 的应用可能涵盖从基础研究到药物设计等更多领域,为蛋白质工程开辟全新的可能性。例如,在基础研究方面,ESM3 可以帮助科学家更好地理解蛋白质的进化机制和生物功能的起源;在疾病治疗方面,ESM3 可以用于设计个性化的蛋白质药物,针对特定患者的基因突变和疾病特征进行精准治疗。

此外,ESM3 模型的发展也将促进生命科学领域与其他学科的交叉融合。例如,与物理学、化学、计算机科学等学科的结合,将为解决生命科学中的复杂问题提供新的思路和方法。同时,ESM3 模型的应用也将推动生物技术产业的创新和发展,为生物制药、生物能源、生物环保等领域带来新的机遇和挑战。

总之,ESM3 模型的发布是生命科学领域的一个重要里程碑,它为我们理解和模拟生命进化提供了一个全新的工具和视角。在未来的研究中,我们期待 ESM3 模型能够继续发挥其巨大的潜力,为生命科学领域的发展做出更大的贡献。同时,我们也需要关注和解决模型应用中面临的挑战和问题,确保其安全、可靠和合理地使用,让这项技术更好地造福人类。

来源:人工智能学家

相关推荐