摘要:哺乳动物着床前胚胎发育是生命起始的关键阶段。在这一过程中,具有全能性的受精卵会经历全基因组范围的表观遗传重编程,通过精细的时空调控,逐步发育成完整胚胎以及多种胚外组织。这一过程涉及一系列关键发育事件:母代-子代转换(Maternal-to-zygotic tr
编辑丨王多鱼
排版丨水成文
哺乳动物着床前胚胎发育是生命起始的关键阶段。在这一过程中,具有全能性的受精卵会经历全基因组范围的表观遗传重编程,通过精细的时空调控,逐步发育成完整胚胎以及多种胚外组织。这一过程涉及一系列关键发育事件:母代-子代转换(Maternal-to-zygotic transition,MZT)、合子基因组激活(Zygotic genome activation,ZGA)、第一次细胞命运决定分化形成滋养外胚层(Trophectoderm,TE)和多能性的内细胞团 (Inner cell mass,ICM),以及第二次细胞命运决定由内细胞团进一步分化为原始内胚层(Primitive endoderm,PE)和多能性的上胚层(Epiblast,EPI)等。此外,在雌性小鼠胚胎中,还需通过父本X染色体的印记失活(imprinted X chromosome inactivation,iXCI)维持X染色体基因剂量的平衡。这些精密的发育过程依赖于数十万个复杂的顺式调控元件和数百个转录因子构成的协同调控网络。
然而,由于技术限制,目前对哺乳动物早期胚胎发育的染色质可及性研究仍然停留在群体细胞水平。着床前胚胎中细胞数量稀少且难以获得,同时在囊胚期已经完成两次细胞谱系分化,其染色质状态具有瞬时性和快速时空动态变化等特征。群体细胞水平(bulk-level)的组学研究难以精确解析不同谱系细胞的染色质状态、胚胎内部异质性等染色质时空动态变化。因此,以单细胞分辨率对哺乳动物着床前胚胎染色质状态进行深入研究是一个亟待解决的问题。
ATAC-seq(Assay for Transposase accessible chromatin with high-throughput sequencing)是研究染色质可及性和顺式调控元件的核心工具之一。现有的单细胞 ATAC-seq 方法虽然最后实现的是单个细胞的染色质可及性测序,但是需要至少数千个细胞作为起始材料,因而难以对哺乳动物着床前胚胎进行单细胞水平的解析。此外,传统的短读段 ATAC-seq 技术对于检测着床前胚胎发育过程中激活且发生动态变化的重复元件存在局限性。来自重复元件的短读段可能比对到多个基因组位点,从而因为歧义比对而在序列比对后被质控过滤掉,导致这些基因组区域的表观遗传景观一直处于未知状态。此外,短读段 ATAC-seq 技术覆盖的遗传变异有限,区分父母本等位基因的效率低下,限制了对基因组印记的研究。
2023 年,汤富酬课题组开发了首个基于单分子长读段测序平台的单细胞scNanoATAC-seq技术,大大提高了 ATAC-seq 技术检测重复元件染色质可及性和等位基因特异性染色质可及性方面的分析能力。虽然该技术最后实现的是单个细胞的染色质可及性测序,但是仍需要数万个细胞作为起始材料,这严重限制了其在哺乳动物着床前胚胎发育中的应用。
2025 年 3 月 28 日,北京大学生物医学前沿创新中心(BIOPIC)汤富酬课题组与清华大学基础医学院纪家葵课题组合作,在国际顶尖学术期刊Science上发表了题为:Chromatin Accessibility Landscape of Mouse Early Embryos Revealed by Single-cell NanoATAC-seq2的研究论文。
该研究首次报道了适用于单细胞样本起始的 ATAC-seq 技术——scNanoATAC-seq2。
该技术开发了创新的单管反应体系,将多个实验步骤集成在单个反应管中完成,最大程度降低了样品损失。通过长片段富集,极大降低了文库的线粒体 DNA 污染比率,实现了从单个细胞起始样本获取高质量的染色质可及性信息。研究团队采用 scNanoATAC-seq2 技术对小鼠着床前胚胎各发育阶段进行了系统、深入的单细胞分辨率染色质可及性分析(图1)。
该研究的重要发现如下:
1、确立了X染色体印记失活和重新激活的表观调控基础
X 染色体上调控X染色体失活现象的有两个相邻的主要拓扑相关结构域:促进X染色体失活的 X-ist 结构域和抑制X染色体失活的 Tsix 结构域。Xist结构域包含 X-ist、Jpx、Ftx 和 Rlim 等重要调控基因,其表达主要促进所在 X 染色体的失活。而 Tsix 结构域包含 Tsix、Tsx 和 Linx 等重要调控基因,其表达主要抑制所在 X 染色体的失活,即促进或维持该条 X 染色体的激活状态。
利用两种近交系小鼠交配产生的杂合胚胎进行分析,该研究发现,在 4 细胞胚胎阶段开始的父本 X 染色体印记失活过程中,X-ist 结构域特异性增强父本 X 染色体在该区域的染色质开放性,从而促进整条父本 X 染色体的印记失活。而此时 Tsix 结构域保持父本和母本 X 染色体在该区域的对称开放性,不参与父本 X 染色体的特异性印记失活(图2)。发育到早期桑椹胚阶段时,这一状态发生逆转,X-ist 结构域逐渐转变为父本和母本 X 染色体在该区域的对称开放性,而 Tsix 结构域逐渐特异性增强母本 X 染色体在该区域的染色质开放性,保持母本 X 染色体处于活跃状态,而仍然使整条父本 X 染色体维持印记失活状态(图2)。此后,在晚期囊胚阶段,在两个胚外谱系的细胞(滋养外胚层和原始内胚层)中保持这一由 Tsix 结构域主导的父本X染色体印记失活状态。而在多能性的上胚层细胞中Tsix结构域重新逆转回父本和母本 X 染色体在该区域的对称开放性,印记失活的父本 X 染色体被重新激活,但是其激活程度仍然略低于母本 X 染色体。
图2. X-ist与Tsix结构域调控父本X染色体印记失活和重新激活。
2、鉴定了调控合子基因组激活和早期胚胎两次谱系命运决定的关键转录因子
对于结合基序已知的转录因子,通过分析其结合位点的染色质状态,ATAC-seq 可以准确鉴定每个转录因子的调控活性,准确判断对应关键生物学事件的主导转录因子。通过对从受精卵到晚期囊胚的十个关键发育阶段的分析,包括受精卵、早期2细胞、晚期2细胞、4细胞、早期8细胞、晚期8细胞、16细胞(早期桑葚胚)、晚期桑椹胚期、早期囊胚和晚期囊胚,该研究准确鉴定了该过程中每个发育阶段和每个分化谱系的关键转录因子(图3)。scNanoATAC-seq2 分析提示,这些转录因子的基因体和转录因子下游结合位点上的表观激活程度在发育过程中协同变化。这为后续通过基因敲除等手段对每个主导转录因子的功能进行精细分析奠定了基础,也为研究着床前胚胎的每个发育阶段的核心转录因子网络提供了表观组学依据。
3、揭示了主要重复元件类别在早期胚胎发育过程中的表观调控特点
哺乳动物基因组中大约一半都是由重复元件组成的。一些重要类型的重复元件在基因组中有数千个序列几乎一模一样的拷贝,分散分布在整个基因组中。例如全长 LINE1 重复元件拷贝的长度在 6 kb 左右,同一亚家族内两个拷贝之间的序列相似度能够达到 99% 以上。二代短读段测序很难区分这些不同的拷贝,因而无法判断其染色质状态(图4)。该研究发现大部分全长 LINE1 在卵裂期染色质开放度下降,而后在囊胚期上升。然而,存在 157 个调控模式相反的全长 LINE1 拷贝,其染色质开放度在卵裂期上升,而后在囊胚期下降,可能涉及常染色质-异染色质的区室形成。
MERVL 属于长末端重复序列(long terminal repeat,LTR)家族,全长约 6kb,中间为内源逆转录病毒(endogenous retrovirus,ERV)蛋白编码序列,两端为辅助转座和顺式调控的 MT2-mm 元件。先前的研究表明,这类转座子在合子基因组激活过程中被广泛激活并转录,人为沉默 MERVL 会导致小鼠着床前发育异常。由于小鼠基因组中 570 个完整 MERVL 元件的序列高度相似,短读段测序技术难以实现唯一比对。利用 5 kb 以上的长读段(涵盖MERVL侧翼的非重复序列),scNanoATAC-seq2 能够实现 MERVL 来源 DNA 片段的唯一比对,从而精确描绘每个拷贝的 MERVL 的表观激活特征。在晚期2细胞阶段发生的合子基因组激活中,MERVL 的表观激活发生于两端的 MT2-mm 重复元件,而内部的 ERV 编码序列所在的染色质保持相对关闭状态。此外,逐个拷贝分析的染色质可及性表明,这些序列相似的 MERVL 元件之间仍存在表观激活程度的差异。在 scNanoATAC-seq2 鉴定的活跃 MERVL 元件附近(30 kb以内),相应的靶基因呈现 ZGA 表达激活(如Zscan4c、Zscan4d和Sp110);相反,表观遗传沉默的 MERVL 元件附近基因的表达则在 ZGA 过程中未激活。
图4. scNanoATAC-seq2鉴定序列高度相似的不同拷贝重复元件的染色质状态
4、鉴定了一批新的小鼠早期胚胎非经典印记基因
scNanoATAC-seq2 技术能够高效区分父、母本等位基因,适合研究发育中的基因印记。在 C57×DBA 和 C57×CAST 杂合胚胎中,该研究分别识别了 47% 和 97% 的染色质可及性的亲本来源。利用这些数据,该研究描绘了染色质可及性介导的非经典印记的动态变化(不依赖DNA甲基化)。结果显示,非经典印记强度在着床前发育过程中逐渐消失,并在晚期囊胚谱系分化后降至最低水平。该研究最晚在8细胞胚胎阶段观测到较强的等位基因特异性染色质可及性。由此,通过反交胚胎验证,研究人员在该发育阶段鉴定出 325 个小鼠非经典印记基因。其中 266 个基因是相较于 Inoue 等人的研究新鉴定出来的父源非经典印记基因。Inoue 等人的研究是基于孤雌和孤雄小鼠桑葚胚的染色质可及性差异,而不是基于正常胚胎发育过程的等位基因特异性染色质可及性分析得出的。
5、发现16细胞胚胎阶段已经出现胚内和胚外谱系分化的染色质可及性特征
该研究鉴定了早期囊胚中内细胞团和滋养外胚层谱系特异性的染色质开放区域特征,并且以此为基础解析其他发育阶段的胚内异质性。结果表明,小鼠胚胎发育至16细胞阶段时,首次出现了表观基因组层面的内细胞团和滋养外胚层命运分化特征(图5)。这提示在囊胚腔出现之前,囊胚中两种谱系的分化特征已然在16细胞胚胎(早期桑葚胚)阶段的染色质可及性层面出现。
总之,该研究利用单细胞起始的 scNanoATAC-seq2 技术,构建了涵盖小鼠着床前发育全过程的高精度单细胞染色质可及性图谱,系统鉴定了不同发育阶段、不同谱系细胞的关键转录因子,揭示了调控合子基因组激活和谱系分化(上胚层、原始内胚层和滋养外胚层)的顺式调控网络。此外,还解析了雌性胚胎中父本 X 染色体的印记失活与重新激活,以及非经典印记基因的表观调控基础。这些发现为理解包括人类在内的哺乳动物早期胚胎发育的分子机制提供了新的线索。
北京大学生物医学前沿创新中心汤富酬研究员、文路副研究员与清华大学基础医学院纪家葵研究员为该论文的共同通讯作者。清华大学基础医学院博士生李孟瑶博士(已毕业)与北京大学生物医学前沿创新中心博士生蒋振寰为该论文的并列第一作者。
论文链接:
来源:阿曼科学大全