摘要:刚刚,Google DeepMind 推出一款新型 DNA 序列模型——AlphaGenome,该模型可以助力调控变异-效应的预测,有望为基因组功能研究提供新视角,目前已经可以通过 API 获取。
刚刚,Google DeepMind 推出一款新型 DNA 序列模型——AlphaGenome,该模型可以助力调控变异-效应的预测,有望为基因组功能研究提供新视角,目前已经可以通过 API 获取。
图 | AlphaGenome 的架构(来源:https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf)
相关论文的共同一作包含一位名为 Jun Cheng 的华人作者。他目前在 Google DeepMind 担任研究人员。资料显示,其博士毕业于德国慕尼黑工业大学。
图 | Jun Cheng(来源:https://chengjun.me/)
据介绍,AlphaGenome 能够更全面、更准确地预测人类 DNA 序列中的单个变异或突变如何影响了一系列调控基因的生物过程,并能输出高分辨率预测结果。
DeepMind 研究副总裁普什米特·科利(Pushmeet Kohli)表示:“我们首次创建了一个单一模型,将理解基因组所面临的许多不同挑战统一起来。”不过,他也表示:“AlphaGenome 可能不会完整地模拟整个细胞……但它开始在某种程度上揭示 DNA 更广泛的语义。”
据了解,AlphaGenome 试图探索有关改变 DNA 字母如何改变基因活性的背后机制,以及试图回答最终基因突变如何影响人类健康这一基本问题,以便进一步地简化生物学家的工作。美国纪念斯隆凯特琳癌症中心的计算生物学家迦勒·拉罗(Caleb Lareau)提前接触了 AlphaGenome,他说:“我们拥有构成人类基因组的 30 亿个 DNA 字母,但每个人都略有不同,我们并不完全了解这些差异的作用。这是迄今为止模拟这种情况最强大的工具。”拉罗表示,AlphaGenome 不会从根本上改变他的实验室日常工作方式,但可能会允许进行新类型的研究。例如,有时医生会遇到患有极罕见癌症、带有不熟悉突变的患者。AlphaGenome 可以指出哪些突变才是真正导致根本问题的原因,从而为治疗指明方向。
为了推动学界研究,Google DeepMind 通过 AlphaGenome API 提供 AlphaGenome 预览版,目前仅供非商业研究使用,并计划在未来发布该模型。预计其将帮助研究人员更好地理解基因组功能、疾病生物学,并最终推动新的生物学发现和新疗法的开发。需要注意的是,本次模型并未针对直接临床目的进行设计或验证。
AlphaGenome:能分析多达 100 万个 DNA 碱基,并能以单个碱基的分辨率进行预测
而与现有的 DNA 序列模型相比,AlphaGenome 具有几个独特的特点:
第一,其具备高分辨率的长序列上下文。该模型能够分析多达 100 万个 DNA 碱基,并能以单个碱基的分辨率进行预测。长序列上下文对于覆盖远距离调控基因的区域至关重要,而碱基分辨率对于捕捉精细的生物学细节也至关重要。以往的模型不得不在序列长度和分辨率之间做出权衡,这限制了它们能够联合建模并准确预测的模态范围。AlphaGenome 解决了这一局限性,同时没有显著增加训练资源,训练单个 AlphaGenome 模型(不进行蒸馏)仅需四小时,且所需的计算预算仅为训练原始 Enformer 模型的一半。
第二,其具备综合多模态预测能力。通过解锁对长输入序列的高分辨率预测,AlphaGenome 能够预测最广泛的模态范围。在此过程中,AlphaGenome 能为研究人员提供关于基因调控复杂步骤的更全面信息。
第三,其具备高效变体评分能力。除了能够预测多种分子特性外,AlphaGenome 还能在一秒钟内高效评估一个基因变异对所有这些特性的影响。它通过对比突变序列与未突变序列的预测结果,并针对不同模态采用不同方法高效总结这种对比来实现这一功能。
第四,其具备新型剪接位点建模能力。许多罕见的遗传性疾病,如脊髓性肌萎缩症和某些类型的囊性纤维化,可能是由 RNA 剪接错误引起的。RNA 剪接是一个过程,在此过程中,RNA 分子的部分被移除或“剪掉”,剩余的端部重新连接。AlphaGenome 首次能够直接从序列中明确模拟这些连接点的位置和表达水平,从而能够帮助人们更深入地了解遗传变异对 RNA 剪接的影响。
基因组是我们细胞的指令手册,它是一套完整的 DNA 序列,几乎指导着生物体的每一个部分,从外观和功能到生长和繁殖。基因组 DNA 序列中的微小变异可以改变生物体对环境的反应或对疾病的易感性。但是,在分子水平上解读基因组的指令是如何被读取的,以及当发生微小的 DNA 变异时会发生什么,仍然是生物学最大的谜团之一。
德国慕尼黑工业大学计算医学教授朱利安·加尼厄(Julien Gagneur)表示:“癌症的一个标志是 DNA 中的特定突变会使错误的基因在错误的环境中表达。这种类型的工具在识别哪些突变会破坏正常基因表达方面非常重要。”同样的方法也可以应用于患有罕见遗传疾病的患者,其中许多人即使他们的 DNA 已经被解码,也从未了解到他们病情的根源。“我们可以获得他们的基因组,但我们不知道哪些基因改变会导致疾病。”加尼厄说表示。因此,他认为AlphaGenome 可以为医学研究人员提供一种诊断此类病例的新方法。
据介绍,AlphaGenome 模型以长 DNA 序列(最多 100 万个碱基对)为输入,并能预测数千个表征其调控活性的分子特性。该模型还能通过比较突变序列与未突变序列的预测结果,对基因变异或突变的影响进行评分。
预测属性包括基因在不同细胞类型和组织中的起始位置和终止位置、剪接位置、产生的 RNA 量,以及哪些 DNA 碱基是可接近的、彼此靠近的或被某些蛋白质结合的。训练数据则来源于一些大型公共联盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量了这些属性,涵盖了数百种人类和小鼠细胞类型和组织中基因调控的重要模式。
另据悉,AlphaGenome 架构利用卷积层来初步检测基因组序列中的短模式,借助 Transformer 在序列的所有位置之间传递信息,并通过最后的一系列层将检测到的模式转化为针对不同模态的预测。在训练过程中,针对单个序列的这种计算会分布在多个相互连接的张量处理单元(TPU,Tensor Processing Units)上进行。
据了解,该模型基于 Google DeepMind 之前的基因组学模型 Enformer 构建,并与专门用于分类蛋白质编码区域内变异影响的 AlphaMissense 相辅相成。蛋白质编码区域占基因组的 2%。其余 98% 的区域称为非编码区,对于协调基因活性至关重要,且包含许多与疾病相关的变异。而 AlphaGenome 为解读这些广阔的序列及其内的变异提供了新的视角。
未来,AlphaGenome 将允许那些目前只能在实验室中进行的某些类型实验迁移到计算机上开展虚拟实验。例如,假如一些热心人士捐赠了 DNA,针对这些 DNA 进行研究往往会发现数千种遗传差异,而每种差异都会略微增加或降低一个人患阿尔茨海默病等疾病的几率,因此这类研究具有重要意义。
不过,不要指望 AlphaGenome 能对个人做出太多预测。它提供的是基因活性的具体分子细节的线索,而不是像美国 DNA 鉴定公司 23andMe 的产品那样能够揭示一个人的特征或祖先。Google DeepMind 也在一份声明中表示:“我们尚未为个人基因组预测设计或验证 AlphaGenome,这是 AI 模型已知的挑战。”
在各项基准测试中均展现顶尖性能,已被用于研究癌症相关突变潜在机制
目前,AlphaGenome 已经在广泛的基因组预测基准测试中取得了最先进的性能,例如预测 DNA 分子的哪些部分将紧密相邻,预测基因变异是否会增加或减少基因的表达,或者预测它是否会改变基因的剪接模式。
图 | 条形图显示,与每个类别中当前最佳方法的结果相比,AlphaGenome 在所选 DNA 序列和变异效应任务上的相对改进情况(来源:Google DeepMind)
在对单条 DNA 序列进行预测时,AlphaGenome 在 24 项评估中有 22 项表现优于最佳外部模型。而在预测变异的调控效应时,它在 26 项评估中有 24 项表现与最佳外部模型相当或更优。
据了解,此次比较包括专门用于各项任务的模型。而 AlphaGenome 是唯一能够联合预测所有评估模态的模型,这凸显了其通用性。
AlphaGenome 的通用性使研究人员能够通过一次 API 调用,同时探索一个变体对多种模态的影响。这意味着研究人员可以更快地生成和测试假设,而无需使用多个模型来研究不同的模态。
此外,AlphaGenome 的出色表现表明,它已在基因调控的背景下学习了相对通用的 DNA 序列表示方法。一旦该模型得到完全发布,研究人员将能够根据自己的数据集对其进行调整和微调,以更好地解决他们独特的研究问题。
因此,这种方法提供了一个灵活且可扩展的架构。通过扩展训练数据,AlphaGenome 的能力可以得到提升,从而取得更好的性能,覆盖更多的物种,或纳入额外的模态使模型变得更加全面。
而 AlphaGenomes 的预测能力,也将有助于多个研究方向的发展:
其一,用于疾病理解:通过更准确地预测基因突变,AlphaGenome 可帮助研究人员更精确地查明疾病的潜在原因,并更好地解释与某些特征相关的变异的功能影响,从而可能发现新的治疗靶点。并且,该模型特别适合研究具有潜在重大影响的罕见变异,例如研究导致罕见孟德尔遗传病的变异。
其二,用于合成生物学:其预测结果可用于指导设计具有特定调控功能的合成 DNA,例如设计仅在神经细胞中激活基因,而在肌肉细胞中不激活的 DNA。
其三,用于基础研究:它可以通过协助绘制基因组关键功能元件图谱并明确其作用,以及识别调节特定细胞类型功能的最基本 DNA 指令,来加速人们对基因组的理解。例如,Google DeepMind 团队已经使用 AlphaGenome 来研究癌症相关突变的潜在机制。在一项针对 T 细胞急性淋巴细胞白血病(T-ALL,T-cell acute lymphoblastic leukemia)患者的现有研究中,研究人员观察到基因组中特定位置的突变。利用 AlphaGenome,可以预测这些突变会通过引入 MYB DNA 结合基序来激活邻近的 TAL1 基因,这不仅能复制已知的疾病机制,并凸显了 AlphaGenome 将特定非编码变异与疾病基因联系起来的能力。
虽然 AlphaGenome 能够预测分子结果,但它无法全面揭示遗传变异如何导致复杂性状或疾病,因此这通常涉及更广泛的生物过程比如发育和环境因素,而这超出了本次模型的直接应用范围。目前,Google DeepMind 团队并未将 AlphaGenome 设计或验证用于个人基因组预测。相反,该团队更侧重于描述其在个体遗传变异上的表现特征。
总的来说,AlphaGenome 标志着 DNA 研究向前迈出了重要一步,但同时也要认识到其目前的局限性。与其他基于序列的模型一样,其依然很难准确捕捉距离非常远的调控元件的影响(比如距离超过 10 万个 DNA 碱基的调控元件)。因此,Google DeepMind 团队的另一个重点是进一步提高模型捕捉细胞和组织特异性模式的能力。
来源:东窗史谈一点号