从基因组到泛基因组——荷兰瓦赫宁根大学研究人员利用单倍型参考泛基因组揭示多倍体植物的遗传多样性

360影视 2025-01-19 17:37 2

摘要:多倍体植物基因组中,不同染色体组之间的差异被认为是植物适应环境、进化历史和性状形成的重要驱动力。然而,传统的基因组分析方法将所有染色体组“拼接”成一个参考基因组,忽略了这些关键的基因组间和组内变异。随着泛基因组学技术的飞速发展,尤其是利用泛基因组的构建和分析实

多倍体植物基因组中,不同染色体组之间的差异被认为是植物适应环境、进化历史和性状形成的重要驱动力。然而,传统的基因组分析方法将所有染色体组“拼接”成一个参考基因组,忽略了这些关键的基因组间和组内变异。随着泛基因组学技术的飞速发展,尤其是利用泛基因组的构建和分析实现对多倍体植物(如马铃薯、苹果)的倍性识别。结合长读长测序和先进的组装算法,不仅能够解析染色体的变异,还能揭示基因定相、结构变异和功能基因的多样性,让人们得以窥见隐藏在复杂基因组中的遗传奥秘。

近日,荷兰瓦赫宁根大学科研人员在Plant Biotechnology Journal在线发表“Exploring intra- and intergenomic variation in haplotype-resolved pangenomes”。由于四倍体马铃薯(Solanum tuberosum)和二倍体苹果(Malus spp.)有多种高质量单倍型解析组装的可用性,且马铃薯和苹果共享三个全基因组重复(whole-genome duplication WGD)事件,每个事件都有自己的谱系特异性事件。研究人员在两个数据集上演示了新的PanTools功能,包括添加基因共线性信息、计算基因保留率、加速全基因组比对分析、计算同义与非同义突变率,以及整合这些信息的新型基因组结构的可视化。引入新注释以标记单倍型,更新现有功能并添加新命令行工具,使其能够结合单倍型信息进行更有针对性的分析,如比较特定基因组、亚基因组或同源染色体。

为了展示PanTools的更新和新功能,研究人员构建了两个表现出不同倍性水平的泛基因组。物种水平的泛基因组由五个马铃薯品种构成:DM1-3516 R44(DM)、Atlantic、Castle Russet(CR)、Otava和Cooperation-88(C88)。推断同源性是泛基因组分析的基础。马铃薯蛋白质组在不同设置(所谓的“松弛模式”)下进行聚类,其中增加松弛模式表示降低聚类严格性。最关键的参数是对所需的最低序列相似性进行对比,从95%开始,在每个后续模式中降低10%。在松弛模式2和8之间,观察到同源性组的数量几乎减少了七倍(图1a)。不同松弛模式的可用性允许针对不同的数据集进行校准,但显然提出了一个问题,即最佳设置是什么。使用通用单拷贝同源基因基准(Benchmarking universal single-copy orthologs BUSCO)基因来评估每个同源分组,发现召回率和精确率之间存在明显的权衡(图1b)。

图1 S. tuberosum蛋白质组以不同的设置进行聚类

除马铃薯外,由五个二倍体苹果(Malus)种质构建了一个属水平的泛基因组:M. domestica cv. Gala、M. domestica 'Golden Delicious' GDDH13、M. sieversii、M. sylvestris和M. baccata。为了构建Malus泛基因组,研究人员遵循相同的BUSCO聚类方法。BUSCO表明所有基因组以及单独的亚基因组的完整性都非常高。该分析支持最近存在Malae特异性全基因组重复(whole-genome duplication WGD),因为所有Malus(亚)基因组中近三分之一的基因内容被标记为重复。

马铃薯基因组的蛋白质编码基因聚集在52240个同源组中,其中37.1%是核心组,33.0%是辅助基因,29.9%是云组(图2a)。近一半的云组仅存在于单个亚基因组中。值得注意的是,这些亚基因组排他性组中有80%是单例组,与另一个序列没有任何同源性,这引起了对其真实性的怀疑。有趣的是,云基因在更高质量的Otava和C88基因组中更丰富。另一方面,核心基因需要出现在至少5个亚基因组(来自不同的种质)中,但通常存在于11-17个亚基因组中。当我们分析单个基因组的基因内容时,看到大多数基因被表征为核心(图2b)。C88基因组的基因分布揭示了一个有趣的模式,大多数辅助基因和云基因位于染色体的着丝粒周围区域,而核心基因通常位于染色体臂中(图2c)。观察到的云基因定位在Otava和C88基因组中最为突出,但也出现在其他基因组中。这些可视化之间模式的明显差异表明,由于质量较高,可能在高重复区域注释了更多的基因。另一个促成因素可能是马铃薯基因组中有害突变的积累,破坏了开放的阅读框并改变了蛋白质序列。在Otava和C88中,近一半的组在所有四个亚基因组中都存在基因,而在Atlantic和CR中,这大约占组的五分之一(图2d)。对C88的基因区域进行可视化,根据亚基因组特征对它们进行着色(图2e)。染色体臂中的核心基因与所有四种单倍型的存在密切相关。

图2 马铃薯泛基因组基因含量的表征

系统发育的准确推断对于理解进化历史至关重要。异质性泛基因组图使人们能够从不同类型的遗传变异中推断系统发育。完整的亚基因组不能直接比较,因为当基因组在没有亲本数据的情况下组装时,每条染色体的单倍型分配是模糊的。因此,研究人员没有对完整的亚基因组进行系统发育,而是推断每条染色体有单独的树。PanTools为此目的对系统发育方法进行了一系列的调整。两种方法的使用基于共享k-mer或基因数量的距离。其他更复杂的方法,核心基因组SNP树和核心基因树的共有树,由于需要核心基因内容,因此受到定相质量的严重阻碍。研究人员对S. tuberosum Chr1作为其他染色体的代表性例子的树形拓扑结构进行探讨。其余11条马铃薯染色体的树木拓扑则显示出与Chr1相似的趋势。作为Chr1核心SNP树的输入,研究人员收集了每个单倍型具有一个基因拷贝的同源组。单个Chr1单倍型的基因聚集成2155-4010个同源组,但只有296个在所有单倍型中共享,其中52个组被确定为单拷贝。从这些单拷贝组中,推断出具有高模糊性的低分辨率SNP树。图3a中这个系统发育的Splitstree揭示了明显的冲突信号。为了获得k-mer和基因树,研究人员利用泛基因组图提取共享实体,并使用它们来计算序列之间的成对距离。根据DBG中的共享k-mer,建立了一个序列级k-mer距离树。该树显示12个分支(图3b),对应于S. tuberosum染色体的数量。分配给序列的染色体编号均未与其他染色体编号冲突,从而支持正确的拓扑结构。为了探索S. tuberosum的WGD历史,研究人员计算了同义替换(Ds)同源基因的替换率。Otava和C88之间的基因组间同义替换率分布揭示了三个清晰可见的峰值,这些峰值可能与进化事件有关(图3c)。最年轻和最高峰图(Ds0.001–0.01)表示两种马铃薯物种的物种形成时间。起源于Solanaceae古六倍体的旁系同源区域显示为第二个峰(Ds0.6–0.9),第三个弱峰(Ds2-3)提供了双子叶细胞古六倍体(γ)事件的证据。Ds的分布替换通常仅在基因组之间报告。基因组内Ds C88的分布(图3d)显示了三个峰,它们看起来与C88和Otava之间的分布几乎相同。这种突变率的三峰模式并非C88所特有的,而是在分阶段基因组的所有基因组内比较中发现的。因为在未定相(单倍体)基因组组装中,同义替换图仅显示全基因组复制事件。对最年轻峰图(Ds0.001–0.01)能见度的合理解释是由于定相位于不同单倍型上的等位基因现在是对齐的,而在未定相组装中只有重复的基因是对齐的。尽管基因组间比较中的第一个峰值与物种形成有关,但在基因组内单倍型分辨的组装中,它反映了亚基因组之间的杂合性。这些结果表明,在亚基因组水平进行泛基因组进化分析时,可以提供更多的见解。

图3 S. tuberosum的进化史

比较生物体的基因组组织揭示了基因组守恒和重排,同源分组与泛基因组中已建立的系统发育关系联系在一起,可作为分析基因组组织的框架。研究人员讨论了几种PanTools方法来检查Malus染色体之间结构的保守和变化趋势。通过同线分析确定了泛基因组中所有序列之间成对保守的共线性。研究人员开发了大规模基因组结构分析(macrosynteny)和局部基因内容和顺序守恒(microsynteny)的可视化。在滑动窗口中根据同源性(保守基因序列)或同质性(保守基因顺序)计算保守性。苹果的两个例子通过这些可视化方法的使用展示了单倍型之间的高度多样性,并揭示了多倍体化后复制染色体的命运。

基于M. sylvestris Chr11A(图4a)作为查询的保留模式代表了大多数Malus可视化结果:一对染色体(绿线)显示同线基因的高保留,另一对(红线)丢失了大多数共线基因对。保留较少的序列是最近WGD的残余部分。总体而言,同源染色体的基因保留率很高但局部波动很大。在M. sieversii Chr11A基因组位置10Mb(区域 i)附近观察到最大的同线丢失,其中共线性完全丢失。WGD重复区域相对于参考的可观察保留模式在所有三个保留图之间高度相似。显示不同同线水平的区域的两个突出例外是Gala 10-13 Mb(区域 ii)和M. sieversii 7-9MB(区域 iii),因为在这些区域内没有发现同线基因对。在第二个示例中,使用M. sylvestris Chr14A作为查询来探索保留图。WGD复制区域片段化并位于两条不同的染色体上,如图4b中的红线和蓝线所示。这种重排在WGD中很常见,之后多倍体可能会逐渐恢复到二倍体状态。这些WGD衍生片段中的基因保守水平在基因组中高度相似,并且仅显示两种异常模式。只有M. sylvestris 在两个单倍型上保留了Chr12(区域 i,10-15Mb)上重复基因的共线性。相反,Gala Chr6B(区域 ii,25-26Mb)是唯一丢失与参考序列同线的所有基因的区域。除了这种重排之外,同源染色体(绿线)中存在大量分离,表现为Gala(区域 iii)和M. sieversii(区域iv)中近一半染色体的同线高度丢失。研究人员将从图数据库中提取的基因组和泛基因组特征结合开发了一种新的可视化功能。在图4c中以M. sieversii和GDDH13的Chr11示例,将基因组内和基因组间基因缺失/变异与同线注释相结合,可视化显示大块未共享基因与基因组内和基因组间同线断点相关。Synteny块进一步揭示了三个主要的反转。最左边的倒位(用字母A标记)对序列11B具有特异性,并且似乎也被易位。11A(9-11Mb,130个基因)中的第二个单倍型特异性倒位(B)是任何Malus染色体之间已鉴定的最长的结构变异。第三个反转(C)是基因组间的,仅在M. sieversii和GDDH13之间可见(大约位置13-14Mb)。多基因组点图提供了一组染色体的基因组内和基因组间变异的另一种观点。点图是用于识别大规模缺失、反转和重复的常用可视化效果。早期建立的系统发育关系,只有同源染色体与另一个染色体对齐。在图4d中则显示了泛基因组中所有Malus Chr1单倍型的点图可视化结果。值得注意的是,GDDH13作为M. sieversii相对于其他Malus基因组都有5MB的倒置。M. sieversii中的这个倒置区域显示出另一个小的倒置,即在M. sylvestri的染色体上最清晰可见。

图4 Malus泛基因组的结构变异可视化

以上案例显示用图形方式表示基因组组织结构变异有助于更好地了解基因组的复杂性,而新的PanTools功能允许用户创建新颖的图来显示染色体重排。上述所介绍的实例表明单倍型之间的差异极高。未来无论观察到的变异是反映真实的生物学还是用于组装的人工合成,这些可视化都可以为比较基因组分析提供有价值的支持。此外泛基因组的另一个理想特征是能够识别基因的所有等位基因变异以进行功能选择和育种。S. tuberosum起源于靠近赤道的地区,它对短日照生长条件的适应防止了在高纬度地区春季和夏季的长日照条件下形成块茎。转录因子CYCLING DOF FACTOR 1(StCDF1)是马铃薯达到成熟和块茎形成的关键调节因子。适应较长日照长度的马铃薯植株具有特异性的StCDF1等位基因变异。泛基因组数据库用于查找马铃薯品种中StCDF1的所有等位基因变异。首先,在DM Chr5中鉴定出StCDF1,它聚集在一个由22种蛋白质组成的同源组中。泛基因组注释不仅可以提取蛋白质序列,还可以提取编码基因、转录本和CDS序列。这22个蛋白质来源于17个基因,对基因组组装手动BLAST验证了17个StCDF1位点的存在。图5a提供了同源组内蛋白质序列的概述,显示了每个亚基因组中存在哪些等位基因。通过蛋白质序列比对,根据截断和插入区分了五个主要的StCDF1等位基因组(图5b)。编码全长StCDF1蛋白的灰色组中野生型(WT)等位基因StCDF1.1最丰富,每个基因组至少发现一次。在C88品种中,WT等位基因StCDF1存在于3个亚基因组上,而在Atlantic中,它仅限于1个。蓝色和黄色基团编码具有3′(C端)截断的蛋白质;蓝色组基因插入了新的编码序列。绿色组的特征是5'(N末端)截短,由一个Atlantic基因和两个C88基因组成。最后,Atlantic中的粉红色组基因同时具有5'和3'截断。PanTools帮助鉴定了StCDF1中的等位基因多样性,以3'和5'区域的截断为主要特征。对发现的多样性进行进一步验证是必要的,并需要更大的测序深度或对基因进行更广泛的实验验证。

图5 StCDF1基因定位与蛋白比对

基因组分析为理解生物学功能提供了重要基础,在单倍型水平上解析基因组的能力提供了一种新的方案,但能够轻松分析此类基因组集合的方法仍然很少。研究人员更新了PanTools泛基因组学平台并添加了新功能来表示分阶段单倍体基因组组装并能够识别基因组内变异,并在四倍体马铃薯和二倍体苹果泛基因组上证明了这些功能,展示了实际应用和植物育种的潜力(例如马铃薯的成熟度)。准确泛基因组分析的最关键因素是基因组组装的质量,将泛基因组表征与最先进的生物信息学工具相结合,进行详细的基因组内和基因组间分析是有可行的。PanTools旨在轻松包含如此多样化的数据类型,以便能够研究复杂的生物系统。未来更多的单倍型解析基因组方法的出现将推动进行此类分析所需的方法学发展,这将有助于获得越来越详细的泛基因组内容、组织和进化图景。

PanTools主页:

PanTools在线手册:

可视化cowplot R包:

植物科学最前沿,专注于植物科学前沿进展、zwkxqy

来源:科学微迅

相关推荐