最大开源生物学AI模型Evo 2,可设计涵盖生命所有领域的遗传密码

360影视 欧美动漫 2025-04-25 01:37 2

摘要:迄今最大开源生物学AI模型Evo2发布,可设计涵盖生命所有领域的遗传密码,包含400亿个参数。在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。

迄今最大开源生物学AI模型Evo2发布,可设计涵盖生命所有领域的遗传密码,包含400亿个参数。在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。

近日美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo2,有望彻底改变人们对生命遗传信息的理解和应用。

与初代Evo模型相比,Evo2拓展了训练数据范围,并在架构与数据处理能力上实现了大幅升级。Evo2基于12.8万个物种基因组的9.3万亿个核苷酸进行训练,涵盖人类和其他动物、植物和其他真核生物,完整版高达400亿参数。

Evo2处理与分析生物数据的能力上远高于现有的同类模型,可广泛应用于生物分子研究、药物研发、农业合成生物等领域。相关内容以运营的形式发表在二广站。

2024年11月,Arc研究所团队及美国斯坦福大学团队推出了首个基因组基础模型Evo,能够分析和生成跨DNA、RNA和蛋白质的生物序列,是基因组研究领域的一个突破性里程碑。Evo训练数据包括8万种细菌和古细菌(称为原核生物的简单生物)的基因组及其病毒和其他序列,共涵盖70亿参数。

如今Evo迎来了重大升级--Evo2。Evo2基于NVIDIA的DGX Cloud平台构建,并在覆盖生命三域(原核生物、古菌、真核生物)超12.8万个物种基因组上进行训练,累计处理9.3万亿核苷酸序列。

与仅关注原核基因组的Evo相比,Evo2纳入了来自人类、植物以及真核生物域中其他更复杂的单细胞和多细胞物种信息,实现了前所未有的跨物种泛化,并显著拓宽了其应用范围。

在技术层面,Evo2模型使用了一种名为Striped Hyena 2的新架构,其基于卷积的多混合设计,可实现三倍优于传统Transformer的训练效率提升,并能捕捉基因组的相互作用。自主学习外显子一内含子边界,以及转录因子结合位点等信息,该模型还具有400亿个参数,与Meta DeepMind或OpenAI发布的当前主流大语言模型处于同一量级。

Evo2囊括了生物学的基本语言(DNA RNA和蛋白质),显著扩大了上下纹窗口,能一次性处理多达一百万的剪辑队,这使得其能够理解基因组中相距较远部分之间的关联。Evo2的扩展训练数据和优化架构使其能够在各种生物应用中表现卓越。

Evo2是唯一能够预测编码突变和非编码突变影响的模型。由于生物功能并非由单个蛋白质分子独立完成,构建合成基因组可为研究更广泛的生物背景提供有利条件,而Evo2正致力于此。

在农业方面Evo2可通过提供对植物生物学的见解并帮助科学家开发更具气候适应性或营养更丰富的作物品种来帮助解决全球粮食短缺问题。在其他科学领域Evo2可用于设计生物燃料或设计分解石油或塑料的蛋白质。

展望未来Arc研究所将通过构建"虚拟细胞"来进一步探索生物学复杂性。研究团队将Evo2视为"操作系统",或者说是一个基础层,其为广泛的生成性功能基因组学提供了一个平台。希望科研界能够在这些基础模型之上进行拓展研究,合理利用这个生物学的"应用商店"。

目前Evo2已向公众全面开放,专业研究人员可通过NVIDIABioNe Mo平台调用完整功能;公众用户则可通过交互式界面Evo Designer进行基础操作。此外Evo2的训练数据集核心代码以及模型权重均已开源,为全球科研人员提供了宝贵的资源。

来源:有味少年

相关推荐