摘要:每个细胞都含有相同的基因序列,但只表达其中的一部分。这种细胞特异性的基因表达模式确保了不同类型的细胞(如脑细胞和皮肤细胞)之间的差异,这些差异部分由遗传物质的三维结构决定,该结构控制着每个基因的可访问性。
每个细胞都含有相同的基因序列,但只表达其中的一部分。这种细胞特异性的基因表达模式确保了不同类型的细胞(如脑细胞和皮肤细胞)之间的差异,这些差异部分由遗传物质的三维结构决定,该结构控制着每个基因的可访问性。
近期,麻省理工学院的化学家们提出了一种新方法:利用生成式 AI 来确定这些三维基因组结构。他们的技术可以在短短几分钟内预测数千种结构,比现有的实验分析方法快得多。
通过这种方法,研究人员能够更轻松地研究基因组的三维结构如何影响单个细胞的基因表达模式和功能。
“我们的目标是尝试从基础的 DNA 序列预测三维基因组结构。”该研究的资深作者、麻省理工学院化学系副教授 Bin Zhang 说,“现在我们已经可以做到这一点,这种方法与最先进的实验分析技术不相上下,并为未来深入研究开辟更多可能性。”
目前,这项研究成果已经发表在 Science Advances 上,麻省理工学院的研究生 Greg Schuette 和 Zhuohan Lao 是这篇论文的主要作者。
从序列到结构
在细胞核内,DNA 和蛋白质形成了一种称为染色质的复合物,它包含多个层次的组织,使细胞能够将 2 米长的 DNA 塞进直径只有百分之一毫米的细胞核中。长链 DNA 缠绕在称为组蛋白的蛋白质上,形成了类似珠子串在绳上的结构。
特定位置上可以附加被称为表观遗传修饰的化学标签,这些标签因细胞类型不同而变化,并影响染色质的折叠方式及其附近基因的可访问性。染色质构象的这些差异有助于决定哪些基因在不同的细胞类型或同一细胞内的不同时间点被表达。
在过去的 20 年里,科学家们开发出很多确定染色质结构的实验方法,其中一种被广泛使用的技术名为“Hi-C”,通过将细胞核中的相邻 DNA 链连接在一起发挥作用。然后,研究人员可以通过将 DNA 切成许多小片段并对其进行测序来确定哪些片段彼此靠近。
这种方法可用于大量细胞来计算染色质切片的平均结构,也可用于单个细胞来确定特定细胞内的结构。然而,Hi-C 以及类似技术比较耗时费力,处理一个细胞的数据大约需要一周时间。
为了克服这些局限性,Bin Zhang 团队利用生成式 AI 开发了一个模型,创建了一种快速、准确的方法来预测单细胞中的染色质结构。他们设计的 AI 模型可以快速分析 DNA 序列,并预测这些序列可能在细胞中产生的染色质结构。
“深度学习在模式识别方面非常擅长。”Bin Zhang 说,“它能够分析非常长的 DNA 片段,包含数千个碱基对,并找出这些 DNA 碱基对中编码的重要信息。”
研究人员创建的模型名为“ChromoGen”,包含两个部分:第一部分是一个深度学习模型,经过训练后能够“读取”基因组,分析基础 DNA 序列和染色质数据;第二部分是一个生成式 AI 模型,基于超过 1100 万个染色质构象的数据进行训练,能够预测物理上准确的染色质构象。
在将两部分进行整合后,第一部分“告知”生成模型细胞类型特异环境如何影响不同染色质结构的形成,从而有效捕捉序列与结构之间的关系。对于每个序列,研究人员使用模型生成许多可能的结构。这是因为 DNA 是一种非常无序的分子,因此单一的 DNA 序列可以产生许多不同的可能构象。
“预测基因组结构的一个主要复杂因素是不存在单一的目标解。无论你观察基因组的哪一部分,都存在一系列结构分布,而预测这种非常复杂的高维统计分布极其困难。” Schuette说道。
快速分析
一旦训练完成,该模型可以在极短时间内生成预测,比 Hi-C 或其他实验技术快得多。
“你可能需要花费六个月的时间进行实验才能得到某一特定细胞类型的几十种结构,而使用我们的模型,在单颗 GPU 上只需 20 分钟就能生成特定区域的一千种结构。”Schuette 表示。
在训练了他们的模型后,研究人员用它对 2000 多个 DNA 序列进行了结构预测,然后将它们与实验确定的这些序列的结构进行了比较。他们发现,模型生成的结构与实验数据中看到的结构相同或非常相似。
“我们通常会查看每个序列的数百或数千种构象,这可以合理地表示特定区域可能具有的结构多样性。”Bin Zhang 表示,“如果你在不同的细胞中多次重复实验,你很可能会得到一个非常不同的构象,而这也是我们模型预测到的。”
此外,研究人员还发现,该模型能够对未用于训练的其他细胞类型的数据做出准确预测,这表明该模型可用于分析细胞类型之间的染色质结构差异,以及这些差异如何影响其功能。该模型还可用于探索单个细胞内可能存在的不同染色质状态,以及这些变化如何影响基因表达。
另一个潜在的应用是探索特定 DNA 序列中的突变如何改变染色质构象,这有助于揭示此类突变如何导致疾病的发生。“我认为可以用这种模型来解决很多其他未知问题。”Bin Zhang 表示。
这项研究由美国国立卫生研究院资助。目前,研究人员已经将所有数据和模型公开,供其他研究者获取。
原文链接:
来源:DeepTech深科技