图泛基因组揭示六倍体小麦未发掘的遗传多样性

360影视 日韩动漫 2025-04-09 15:12 2

摘要:六倍体小麦(Triticum aestivum, AABBDD)是全球最重要的粮食作物之一,其基因组异常庞大且复杂。单个参考基因组(如“中国春”)的发布极大地推动了小麦研究,但无法完全代表物种内的全部遗传变异。结构变异(Structural Variation

六倍体小麦(Triticum aestivum, AABBDD)是全球最重要的粮食作物之一,其基因组异常庞大且复杂。单个参考基因组(如“中国春”)的发布极大地推动了小麦研究,但无法完全代表物种内的全部遗传变异。结构变异(Structural Variations, SVs)是基因组变异的重要组成部分,对农艺性状有显著影响,但在小麦中系统性的研究仍显不足。泛基因组,特别是能够整合结构变异信息的图泛基因组,被认为是捕获物种全部遗传多样性、加速功能基因挖掘和育种改良的有力工具。然而,高质量、可广泛应用的小麦图泛基因组资源及其对结构变异的系统解析仍有待深入。

中国农业科学院深圳农业基因组研究所(AGIS, CAAS)的Shifeng Cheng团队,在国际知名期刊Journal of Genetics and Genomics (JGG)发表了题为“Structural variation-based and gene-based pangenome construction reveals untapped diversity of hexaploid wheat”的研究论文。该研究通过整合22个六倍体小麦基因组,构建了基于基因和基于结构变异(SV)的泛基因组,特别是构建了一个约16.15 Gb的图泛基因组。研究揭示了小麦中广泛存在的基因和结构变异,发现仅有约23.2%的基因家族为所有品种共享,并鉴定出近200万个非冗余SV位点。该研究还发现SV和图泛基因组中的变异“气泡”在着丝粒区域显著富集,可能对着丝粒可塑性和稳定性起重要作用,并成功鉴定出春、冬小麦群体显著分化的潜在功能性SV,展示了图泛基因组在解析复杂性状遗传基础方面的巨大潜力。

主要研究结果介绍

多个小麦基因组的评估与统计

研究团队首先收集并评估了来自全球主要小麦产区的22 个六倍体小麦基因组(包括17 个染色体级别和5 个支架级别)。这些基因组大小在13.9 Gb到15.0 Gb之间,具有较高的完整性(BUSCO评估平均为99.1%),转座元件(TEs)含量在77.4%至86.8%之间,其中长末端重复序列(LTR)是主要类型(图1B, S1, S2, 表S1, S2)。系统发育关系主要受地理来源驱动(图1A, 1B)。不同基因组组装质量存在差异,Contig N50和Scaffold N50跨度较大(图1C)。为了构建图泛基因组,研究选择了组装质量较高、且因易于遗传编辑而具应用潜力的美国春小麦品种‘Fielder’作为骨架参考基因组。

通过对染色体级别的基因组进行两两比对,研究人员观察到染色体长度存在巨大变异(如5B染色体长度差异可达258.5 Mb,图1D, 表S3)。这种变异主要源于大规模的染色体间易位(如已报道的5B/7B易位)和臂内倒位(如4B、5B倒位)。此外,研究还发现了多个先前未报道的染色体结构变异,包括7B/7D、1B/1D、6D/6B染色体间的易位以及3D、7B染色体内的倒位(图1E, S3-S8)。上述普遍存在的基因组大小、组成和结构上的变异,表明了利用这些多样性丰富的基因组构建小麦泛基因组的重要性和必要性。

图1

基于蛋白质编码基因的泛基因组

为探究基因层面的存在/缺失变异(PAVs),研究团队利用19 个具有基因注释的基因组(排除了3个注释缺失或质量低的)构建了基因泛基因组。结果显示,随着基因组数量增加到17个,新增基因家族数量趋于平缓,表明该数据集能较好地代表小麦基因家族的多样性(图2A)。最终构建的泛基因组包含140,261个非冗余基因家族(基因簇)。其中,核心基因(存在于所有19 个基因组)占23.19%(32,529个),软核心基因(存在于17-18个基因组)占14.01%,可变基因(存在于2-16个基因组)占59.73%,私有基因(仅存在于1 个基因组)占3.07%(图2B)。

与之前基于地理来源相对单一的小麦群体研究(核心基因比例分别为64.3%和65.66%)相比,本研究的核心基因比例显著偏低,这反映了所选材料可能具有更广泛的遗传多样性。与其他物种(如谷子>50%,黄瓜80%)相比,小麦的核心基因比例也较低。平均每个小麦品种的核心基因约占其总基因数的40.76%(图2C, 2D, 表S4)。此外,基因频率分布呈现出与典型U型分布略有偏差的模式。值得注意的是,泛基因组中高达51.12%的基因家族在“中国春”参考基因组中缺失。

图2

整合结构变异的图泛基因组构建

为了捕获包括“中国春”参考基因组中缺失序列在内的更全面的遗传变异,研究团队以‘Fielder’为骨架,利用minigraph工具整合了其余21 个基因组,构建了一个大小约为16.15 Gb的图泛基因组,比CS2.1参考基因组大约1.76 Gb,也比之前基于16 个基因组构建的图谱大约0.35 Gb。最终的图谱包含约258万个片段(segments),平均长度6.25 kb(图S9, 表S5)。这些片段的频率分布比基因家族更接近U型分布(图S10)。约45.39%的片段在CS2.1参考基因组中无法完全比对上。

研究进一步鉴定了图谱中的变异区域,即“气泡”(bubbles),共发现695,879个气泡,总长度1.536 Gb(图3A),全基因组平均每Mb约有48 个气泡(图3C, S11)。气泡在三个亚基因组间的分布不均衡(B > A >> D),与先前报道的SNP、Indel和CNV的分布趋势一致。平均每个气泡包含4.76条不同的路径(等位基因),其中80.36%为双等位基因型,13.79%有3-5个等位基因,5.85%有超过5 个等位基因(图3B),虽然小麦整体单倍型多样性有限,但多等位的气泡仍为遗传和表型多样性提供了潜在来源。。

气泡的分布与功能注释

气泡断点在几乎所有染色体的着丝粒(Centromeres, CENs)区表现出明显的富集(图3D, S11),而这些区域的SNP、Indel和基因密度通常较低。功能注释显示,大部分气泡位于基因间区,但也有8,843个气泡断点落入‘Fielder’基因组中5,132个基因的蛋白质编码区,其中包含380个终止密码子获得突变和19 个终止密码子丢失突变,可能影响蛋白质序列长度(图3E)。这些受影响的基因参与了苯丙烷类生物合成(与抗虫性相关)和ABC转运蛋白(参与初级代谢物转运)等重要过程(图S12)。

为了探索气泡的潜在调控功能,研究整合了公开的小麦ATAC-seq数据(反映染色质开放区域),共鉴定出230,307个ATAC-seq峰。结果显示,有32,546个气泡断点落在22,435个(占总数的9.74%)ATAC-seq峰内(图3F)。与全基因组相比,落在ATAC-seq峰内的片段中,核心片段的比例显著更高(图3G),暗示这些调控序列在进化上相对保守。

图3

结构变异(SV)的全景解析

研究团队利用SyRI工具,在16 个染色体级别基因组与‘Fielder’基因组的比对中,系统地鉴定了长度大于50 bp的结构变异。平均每个基因组鉴定出约36.8万个SV(图S16, 表S6)。合并所有基因组的SV并去除非冗余后,共获得1,978,221个非冗余SV(不包括无法精确定位的NOTAL类型)(图S17, S18)。其中,60.3%的SV仅在单个基因组中检测到(图4A)。

不同类型的SV在长度分布上存在显著差异(图4B, 4C, S19)。例如,插入(INS)、缺失(DEL)和串联重复(TDM)主要集中在100-500 bp范围;而重复(DUP)、倒位重复(INVDP)、倒位易位(INVTR)和易位(TRANS)则以1-10 kb为主;倒位(INV)和比对不上区域(NOTAL)中大于50 kb的比例更高。整体而言,87.2%的SV长度小于10 kb。插入和缺失的长度分布模式相似,均在约100 bp、4.2 kb、8.8 kb和14.2 kb处出现峰值。

将SV与图泛基因组的气泡进行比较,发现30.65%的SV与至少一个气泡重叠,反之,56.13%的气泡包含至少一个SV(图4D)。不同类型SV与气泡的重叠率差异很大(例如DEL高达84.1%)(图4E)。研究推测,minigraph构建图谱时对SV长度的限制(通常处理100 bp - 100 kb)导致了部分短SV(100 kb)未能有效整合或检出,从而影响了SV与气泡的重叠效率。

图4

SV在染色体及着丝粒区域的分布

SV在染色体不同区域的密度呈现明显差异,呈现出 R1/R3 > R2a/R2b > C 的模式,这与已知的小麦重组率和基因密度分布一致(图5A)。值得注意的是,着丝粒(CEN)内部的SV密度并不低,在大多数染色体上普遍出现显著的峰值(图S20, 表S7),这与近期其他小麦泛基因组研究结果一致。着丝粒区域的SV主要类型为HDR、NOTAL和CPG(拷贝数增加),占该区域SV总量的64.0%。与全基因组相比,着丝粒区域HDR比例下降,CPG比例显著上升(图5B)。着丝粒区域SV的长度分布也与全基因组差异显著(图5C)。研究共鉴定出497个SV热点区域,覆盖约948 Mb,主要分布在R1/R3区域(图5D, 表S8)。

图5

小麦功能基因的区域图谱解析

为了挖掘与重要农艺性状相关的SV,研究利用已知的22 个小麦品种的生长习性信息(图6A),将其分为春小麦组(n=12)和冬小麦组(n=10)。通过计算图泛基因组中每个片段在两组间的相对频率差异(RFD),筛选出可能与生长习性调控相关的区域。共鉴定出2,769个绝对RFD超过0.7的片段,其中78 个超过0.9(图6B, 6C),且这些高度分化的片段中有11 个位于ATAC-seq峰内。一个典型的例子是位于5B染色体上MDH(苹果酸脱氢酶)基因上游的一个218 bp片段,该片段在所有春小麦品种中存在,但在90%的冬小麦品种中缺失(图6C, 6D, S21, S22),并通过SV数据集得到验证。MDH基因被认为在碳固定、氮代谢及植物生长发育中扮演重要角色,且MDH2可能参与小麦籽粒的C4光合作用途径。

此外,研究还评估了图泛基因组在解析已知功能基因复杂结构方面的能力。选取了先前报道的与小麦30 多个性状相关的335个功能基因(表S9),成功将其中319个定位到图泛基因组上。结果显示其中大部分基因(258个,占80.9%)高度保守,呈现单等位状态,如株高基因Rht1Rht8Rht24(图S23-S25)。然而,仍有许多基因位于复杂的、多等位的区域。例如,关键的光周期反应基因PPD-D1,其所在的区域包含5 个片段,构成3 条不同的路径,不仅覆盖了已知的约2 kb缺失变异(相对于CS),还发现了一条新的包含约7 kb替换的路径(s8)(图6E)。另一个驱动小穗轴和籽粒伸长的基因VRT-A2则包含两个双等位的气泡(图6F, S25)。这些结果充分展示了图泛基因组在鉴定与重要性状相关的新位点,特别是解析线性参考基因组中缺失或复杂的SV方面的强大潜力。

图6

全文总结与展望

本研究成功构建了包含22个不同六倍体小麦品种的泛基因组,系统地揭示了小麦基因组中广泛存在的编码基因和结构变异的PAVs。研究发现小麦的核心基因比例相对较低,大量的基因家族和基因组片段在“中国春”参考基因组中缺失。图泛基因组分析揭示了近70 万个变异“气泡”和近200万个非冗余结构变异,报道了SV和气泡在小麦着丝粒区域的显著富集现象,表明结构变异在维持着丝粒功能和染色体稳定性中可能具有潜在的重要作用。通过比较春、冬小麦群体,鉴定出一系列与生长习性高度分化的SV位点,并展示了图泛基因组在解析已知功能基因(如PPD-D1VRT-A2)复杂等位变异结构方面的优势。

这项工作不仅加深了对小麦遗传多样性、基因组结构动态性(尤其是着丝粒区域)和适应性进化机制的理解,而且提供了一个宝贵的、公开可用的图泛基因组和变异资源库(http://wheatpgdb.cn/),将有力地支持未来小麦全基因组关联分析(GWAS)、功能基因挖掘和分子育种工作。

当然,小麦泛基因组的研究仍有提升空间。未来需要整合更多样化(如地方品种、野生近缘种)且基于高质量长读长测序技术的基因组,以更全面地捕获遗传变异;同时,需要优化图谱构建策略,以整合当前未能有效定位的序列(如NOTAL SVs);方法统一的、高质量的基因注释对于准确评估基因PAVs至关重要。此外,对着丝粒富集的SV的功能意义及其对表型和育种的影响,仍需进一步深入研究。

研究团队与资助

本研究由中国农业科学院深圳农业基因组研究所(AGIS, CAAS)联合西北农林科技大学、河南大学等单位共同完成。Hong Cheng(AGIS & NWAFU)、Lingpeng Kong(AGIS)和Kun Zhu(Henan University)为本文共同第一作者。Hong Cheng(AGIS & NWAFU)和Shifeng Cheng(AGIS)为本文共同通讯作者。

该研究得到了国家重点研发计划和深圳市大鹏新区科技创新与产业发展专项资金的支持。

来源:科学平头哥

相关推荐