摘要:尽管肠道微生物十分重要,但其定植的遗传基础仍有许多未被探索。在此,通过在生命之树尺度上应用跨物种基因型-生态位关联分析,我们识别出与肠道定植相关的保守微生物基因模块。在数千个物种中,我们发现了79个分类学上多样化的假定定植因子,它们被组织成操纵子和非操纵子模块
研究论文
● 期刊:Cell(IF:45.5)
● DOI:
https://doi.org/10.1016/j.cell.2025.03.010● 原文链接:
https://www.cell.com/cell/fulltext/S0092-8674(25)00283-1● 发表日期:2025-4-4
● 主要单位:
哥伦比亚大学、洛克菲勒大学、西奈山伊坎医学院
摘要Abstract
尽管肠道微生物十分重要,但其定植的遗传基础仍有许多未被探索。在此,通过在生命之树尺度上应用跨物种基因型-生态位关联分析,我们识别出与肠道定植相关的保守微生物基因模块。在数千个物种中,我们发现了79个分类学上多样化的假定定植因子,它们被组织成操纵子和非操纵子模块。它们包括先前已鉴定的定植途径,如autoinducer-2生物合成以及包括tRNA修饰和翻译在内的新过程。体内功能验证表明,YigZ(IMpACT家族)和tRNA羟化蛋白-p(Trhp)是大肠杆菌肠道定植所必需的。单独过表达YigZ足以将定植能力较差的MG1655大肠杆菌的定植能力提高>100倍。此外,YigZ中的自然等位基因变异会影响菌株间的定植效率。我们的发现突出了大规模比较基因组学在揭示微生物适应性遗传基础方面的强大能力。这些广泛保守的定植因子可能对理解胃肠道(GI)失调和开发治疗药物至关重要。
引言Introduction
微生物栖息于各种各样的生态位。单个细菌在如此多样且特定的环境中实现高适应性的分子机制大多尚未被探索。随着我们期望改造微生物和微生物生态系统以造福人类健康和环境可持续性,我们需要下一代方法来系统且快速地确定整个生物圈内生态位定植的遗传基础。
哺乳动物的胃肠道(GI)是一个复杂且动态的环境,被多种微生物定植。理解影响共生生物定植的遗传因素不仅对于阐明疾病状态下肠道微生物群失调的机制至关重要,而且对于开发具有强大定植能力的有效活体生物治疗产品(LBps)以实现预期的临床效果也极为重要。然而,系统鉴定定植因子(CFs)的研究大多仅限于少数物种,主要在拟杆菌属内。将这些努力扩展到包括更广泛的共生生物,特别是那些不可培养或在遗传上难以处理的生物,面临着重大挑战。
通过计算方法鉴定与特定生态位定植相关的微生物基因,为预测CFs提供了一种潜在的强大方法。然而,这种方法大多仅限于对亲缘关系较近的物种进行狭窄分析。随着对多样化生态位的宏基因组采样不断增加以及宏基因组组装基因组(MAGs)的积累,现在终于可以跨越进化树进行比较基因组学分析,以推断不同生物之间潜在的共同CFs。尽管取得了这些进展,但由于极高的分类学和基因组多样性以及大量未知功能的蛋白质,此类分析仍然具有挑战性。
在此,我们提出了一个强大的计算框架,克服了这些挑战,并使得从最初的约28万个基因组中筛选出的约3700种微生物物种的系统分析成为可能(图1A和S1A)。我们展示了初步的假定肠道CFs及其模块化组织,涵盖了已知和以前未被描述的肠道定植过程。在小鼠中的体内功能验证表明,这种策略揭示了以前未被描述的、真正的大效应CFs。此外,我们还表明,这些因子在各种物种中的存在和缺失是稳定的,这使得通过仅限于亲缘关系较近物种的比较基因组分析来识别它们变得具有挑战性。总之,我们的发现突出了大规模跨物种关联研究在揭示生态位定植新遗传基础方面的强大能力。
图1 | 在小鼠和人类肠道微生物中鉴定微生物定植因子(CFs)
(A)上图展示了计算流程的示意图。详细信息见图S1和STAR方法。下图展示了针对数据集特定(步骤1和2)以及综合(步骤3和4)分析的步骤。
(B)小鼠肠道MAGs、人类肠道MAGs和人类微生物分离株中815万、272万和258万种蛋白质的互信息Z分数(MI-Z)分布,显示了它们与肠道定植表型的关联。对于每个数据集,选取排名前0.2%的高MI-Z分数的蛋白质进行进一步分析,文字标明了所选蛋白质的数量。红色虚线表示MI-Z分数的截断值。
(C)与三个数据集中定植显著相关的定植因子(CFs)的数量。关于如何确定CFs的显著关联,请参阅STAR方法。
(D)63种CFs(与小鼠或人类肠道MAGs的定植高度相关)在不同生态位中的分布情况。(D)比较了CF在环境MAGs与哺乳动物肠道MAGs中的分布。灰色点表示所有16985个蛋白家族,这些家族来自对27000个随机非定植相关蛋白家族进行随机模拟的结果。
(E)小鼠和人类肠道MAGs中63种CFs的互信息Z分数的相关性(R:皮尔逊相关系数)。图(D)和(E)中CF的颜色与图(C)相对应。
(F)79种CFs的网络图,显示同源连接(边:e值
结果Result
进化树尺度的基因型-生态位关联揭示保守蛋白家族为假定的定植因子(CFs)
我们假设多种细菌类群利用共同的、保守的定植机制,并且这些机制的遗传基础可以通过计算鉴定出特异性基因来推断,这些基因与来自环境生态位的基因相比,是哺乳动物(人类和小鼠)肠道微生物所特有的。为了进行这种分析,我们精心挑选了9475个高质量基因组(表S1),这些基因组来自最初的20.8万个基因组,目的是在保持分类学和地理多样性的前提下,尽量减少基因组的冗余(图1A步骤1;图S1A - S1C)。这些基因组包括依赖培养的微生物分离株和不依赖培养的宏基因组组装基因组(MAGs),使我们能够在进化树的范围内研究广泛的物种,无论它们是否可培养。
在这一规模的跨物种基因组比较中,准确鉴定远缘生物之间的同源物是一个重大挑战。为了解决这一问题,我们没有仅仅根据氨基酸同一性来聚类蛋白质,而是采用了一种计算密集型的、基于比对的方法,并优化了定制的计算模块,以提高速度和准确性。这使得我们能够在实际的时间尺度上全面鉴定所分析基因组中的同源物(图1A步骤2;详细信息见STAR方法)。来自三个数据集(小鼠MAGs、人类MAGs和人类分离株)的蛋白质进行了全对全比对,这使我们能够生成一个可靠的二元系统发育谱(pp),反映蛋白质同源物在所有基因组中的存在或缺失情况(图1A步骤2;图S1D)。然后,我们利用互信息(MI)来鉴定那些在基因组中的分布(pp)高度提示其二元生态位定植情况的蛋白质:哺乳动物肠道与其他生态位(图1A步骤2)。MI值通过频率匹配的零分布转换为MI Z分数(图S1D)。值得注意的是,这种数据库独立的方法允许评估每种蛋白质与肠道定植的关联,包括那些功能未知的蛋白质。
到目前为止,我们从三个数据集(小鼠MAGs、人类MAGs和人类分离株)中分别鉴定出16307、5436和5353种蛋白质作为与肠道定植最相关的蛋白质(排名前0.2%,MI Z分数>1548、1087和139)(图1B)。根据序列相似性(图1A步骤3)对这些蛋白质(n=27096)进行分组,使用层次网络聚类,得到了82个蛋白家族(图S1E;STAR方法)。这表明只有少数功能在这些高分蛋白质中富集,这一点通过模拟实验得到了证实,模拟实验中随机抽样同等数量的蛋白质产生了平均约17000个蛋白家族(图S1F)。使用更精确的比对模式重新评估这82个蛋白家族,得到了79个与至少一个数据集(人类分离株、人类GI MAGs和小鼠GI MAGs)显著相关的家族(STAR方法;图S2A - S2C),从而得到了最终的79个假定的定植因子(CFs)(表S2)。
分类学上多样化的定植因子(CFs)在人类和小鼠肠道微生物之间有很大程度的重叠
值得注意的是,在79个定植因子(CFs)中有37个在所有数据集中都有出现(图1C),这突出了小鼠和人类肠道定植中可能存在的共同微生物适应机制,这些机制与是否可培养无关。有9个CFs是人类微生物所特有的(图1C)。一些CFs可能与培养有关,分别有16个和13个CFs是特异于分离株或宏基因组组装基因组(MAGs)的(图1C)。这些CFs对于关键比对参数:“查询蛋白覆盖度”的变化具有鲁棒性(图S2D和S2E)。
这些CFs在肠道微生物中具有很高的普遍性,其中一些被超过90%的肠道MAGs编码(图1D)。非肠道相关蛋白(图1D、S2F和S2G中的灰色点)和随机选择的蛋白家族(图S2H中的灰色点)要么很少出现,要么以一种无法区分生态位的方式普遍出现。人类和小鼠MAG数据集中CFs的互信息Z分数显著相关(图1E)。大多数CFs是正交的,没有可检测到的序列同源性(图1F)。少数CFs存在同源性,但它们的差异足以被分类为不同的CFs,这种差异被我们的层次同源物整合方法所捕捉(图S1E;见STAR方法)。例如,来自同一个高排名蛋白家族的CFs 2_4和2_7,在氨基酸序列(图S2I)和分类学分布(图S2J)上显示出差异。因此,我们发现假定的CFs是与肠道定植一致相关的保守蛋白家族,无论宿主物种(小鼠和人类)和技术变化(基因组恢复方法和管道比对参数),这突出了它们推断的统计鲁棒性。
从头鉴定共调控模块(CMs)揭示了定植因子(CFs)之间的操纵子和非操纵子功能联系
为了更好地理解CFs的高级组织结构,我们接下来试图将它们分成功能上连贯的模块。我们之前已经证明,有助于表型的基因可以根据它们的跨物种共遗传模式被组织成模块(图1A,步骤4),从而揭示出功能上连贯的途径或蛋白质复合体。与这一观点一致,我们观察到79个CFs的跨基因组出现情况(由它们的系统发育谱pp指示)呈现出高度的模块化结构(图2A,左侧)。因此,我们计算了79个CFs之间的成对共遗传强度(图2A,右侧;STAR方法),并基于此将CFs分成了47个定植模块(CMs),包括23个多CF模块(用CM#表示)和24个单CF模块(图2B和S3;表S2和S3;STAR方法)。
图2 | 从头推断的共遗传定植模块(CMs)捕捉与定植相关的生物学过程
(A)79个CFs在9472个基因组中的系统发育谱(左)及其成对共遗传强度(右)。对于系统发育谱,灰色/白色表示基因组中同源物的存在/缺失。左侧的注释条显示了CFs与数据集之间的关系(如图1C中分类)。顶部的注释条显示了基因组的元数据,包括生态位(蓝色/绿色)和类型(MAG或分离株:红色或蓝色,分别表示)。图(D)-(H)中详细说明的CMs被突出显示。
(B)CM鉴定流程。详细信息见STAR方法。
(C)每个类别中CMs的数量。“同源性”表示所有成员CFs彼此同源,如图1F所定义。基于三种代表性物种(大肠杆菌K12、拟杆菌VpI5482和艰难梭菌S-0253)的基因组,定义了基因组上下文(操纵子或非操纵子)。
(D - H)代表性物种中CMs的例子。(D和E)操纵子CMs:CM1和CM6。(F和G)非操纵子CMs:CM11和CM12。(H)操纵子CMs的一个例子:CM18。
(I)基于外部数据库的63个MAG相关CFs的注释状态。详细信息见STAR方法和图S3D。从上到下:蛋白是否通过BioCyc或UniRef50数据库进行注释。灰色条表示每个注释数据库中未注释的基因。
在三种代表性物种(大肠杆菌、拟杆菌和艰难梭菌)中研究多CF模块(CMs)的基因组背景,揭示了CMs与操纵子和非操纵子结构都有关联(图2C;表S4)。例如,操纵子CM1对应于nrdD-nrdG,编码厌氧核糖核苷三磷酸还原酶(RNR),这对于DNA合成至关重要(图2D)。CM6对应于仅在艰难梭菌中存在的一个未被鉴定的操纵子(图2E)。大多数CMs是非操纵子的(图2C)。尽管如此,其中一些仍然捕捉到了功能上相关的CFs,例如CM11(图2F),它包含编码pfs和LuxS的基因,这两种酶催化从S-腺苷同型半胱氨酸(SAH)合成群体感应分子自诱导剂-2和L-同型半胱氨酸的两步反应。非操纵子CMs还包含一些高评分但关系尚未明确的CFs,例如CM12(图2G),它由常见的IMpACT家族蛋白YigZ(CF9)和GTp结合蛋白YihA/YsxC(CF69)组成。
一些操纵子CMs在物种特异性的方式中进一步发生了基因重复(图2C;图S3B和S3C)。例如,CM18对应于乙酸发酵(pta-ackA)和丁酸发酵(ptb-buk)操纵子(图2H)。大肠杆菌编码pta-ackA以及一个与pta进化相关的第二拷贝的磷酸转乙酰酶(eutD)(图2H),尽管它们在调控和酶效率上存在差异,但在某些条件下eutD可以替代pta发挥相同的作用。艰难梭菌编码两个ptb-buk操纵子以及两个额外的buk同源物(图2H)。因此,CFs和CMs对应于广泛的蛋白家族,物种特异性的重复可能表明它们在特定的定植模式上有不同的利用/依赖。一些CFs对应于没有功能注释的蛋白家族(图2I、S3D和S3E)。总之,这些多CF模块捕捉到了已知的操纵子和非操纵子功能关系,并预测了需要进一步研究的CFs之间的新联系。
定植模块(CMs)揭示了已知和新的定植机制
为了描述定植模块(CMs)中富集的生物学过程,我们使用BioCyc和UniRef数据库对它们进行了功能注释(表S2和S3;图S3D-E;STAR方法)。CMs包括参与代谢过程的基因,例如核苷分解代谢和辅因子代谢(CM1、CM3、CF46、CF37)(图S3F)。其他功能涉及转运蛋白和离子结合蛋白(CM5、CM7、CM14、F54、CM21、CM22、CF49_65和CF0_6),群体感应(CM11)以及转录调节因子(CF38、CF7)(图S3G;表S3)。许多CFs具有金属离子结合或ATp结合功能(图S3G)。然而,包括关联信号最强的CM3和CF20在内的一些CMs是功能未知的蛋白(图2I和S3E),或者是具有未知功能保守结构域的蛋白(CF21:DUF1846,CF64:DUF2179)。总之,这些CMs揭示了一组紧凑的过程,包括已知的肠道定植机制,如代谢生态位、群体感应以及糖磷酸转移酶(pTS)系统。然而,许多CMs之前并未与肠道定植相关联,包括一些功能未知的基因。
翻译相关因子是得分最高的定植模块(CMs)之一
有趣的是,得分最高的定植模块(CMs)包括几个与tRNA加工和翻译相关的因子(图3A中的红色和蓝色点,图S3F和S4A),与那些与厌氧生长相关的因子(如CM1中的厌氧核糖核苷三磷酸还原酶)不同(图3A中的绿色点),这些因子之前并未与肠道定植相关联。具体来说,CM2包括两个tRNA修饰酶(CF15和22,图S4A)。CM12涵盖了IMpACT家族蛋白(CF9),这些蛋白与参与翻译的蛋白存在遗传相互作用,并且包括GTp结合蛋白YihA/YsxC(CF69),这些蛋白直接与rRNA结合,影响核糖体组装(图S4A)。CF7对应于YbaK(Cys-tRNApro和Cys-tRNACys脱酰酶)(图S4A)。CF24_29和CF24_46对应于环氧木酮醇还原酶(图S4A)。这些与翻译相关的功能在顶级CMs中的反复出现促使我们通过实验确定它们在小鼠肠道定植中的作用。
图3 | YigZ和Trhp是大肠杆菌Mp13定植所必需的
(A)基于人类肠道宏基因组组装基因组(MAGs)中互信息Z分数对79个定植因子(CFs)进行排名。排名前三的CFs(CF1、CF2_4和CF2_7),对应于厌氧核糖核苷三磷酸还原酶(RNR)途径,用绿色突出显示。tRNA修饰因子(CF15、22、7、24_29和24_46)和其他与翻译相关的CFs(CF9、56和69)分别用红色和蓝色突出显示。
(B)大肠杆菌菌株在不同生态位和宿主偏好上的差异。
(C)四种大肠杆菌菌株中YigZ、Trhp、TcdA和Ybak蛋白序列的比较。与MG1655相比,氨基酸替换的位置用数字突出显示。黄色表示没有替换。
(D)研究设计,通过体内竞争评估Mp7野生型与Mp13野生型或突变体之间删除四个目标基因对定植适应性的影响。
(E)通过计数mCherry和GFp菌落确定的野生型Mp13或其突变体与Mp7的对数10转换标准化比率。详细信息见STAR方法和表S5。灌胃后第12天后的样本包括在小鼠处死时从小肠、结肠和盲肠直接收集的肠道内容物。使用单侧学生t检验计算p值:*p
Trhp和YigZ是小鼠肠道定植中的真正定植因子(CFs)
大肠杆菌菌株表现出广泛的定植效率(图3B)。在两个极端,MG1655(K12)实验室菌株是定植能力较差的菌株,而Mp1菌株显示出非常强大的定植能力,这为评估CFs在小鼠肠道定植中的必要性和充分性提供了机会(图3B)。在所有与翻译相关的CFs中(图S4A),我们重点关注满足三个关键标准的四个基因(yigZ、tcdA、trhp和ybaK)(图S4B):(1)在所有三项分析(人类GI MAGs、小鼠GI MAGs和人类分离株)中均显著;(2)属于大肠杆菌的核心基因组;(3)体外非必需,允许生成敲除突变株。所有四个基因都存在于研究中的大肠杆菌菌株的基因组中(图3B)。然而,序列比较显示,与MG1655相比,所有肠道定植菌株的YigZ、Trhp、TcdA和YbaK中都存在氨基酸替换(图3C)。因此,我们着手测试这四个CFs在大肠杆菌Mp1和MG1655菌株定植中的贡献。
大肠杆菌Mp1菌株是从小鼠中分离出来的,具有很高的定植能力。Mp1有两种荧光标记的衍生物:Mp7(mCherry)和Mp13(GFp)。我们在Mp13背景下针对这四个基因分别生成了单敲除突变株,以Mp7作为对照菌株进行体内竞争实验(图3D)。为了促进定植,小鼠预先用链霉素处理72小时,然后恢复24小时,如前所述。每只小鼠被单独饲养,以确保生物样本之间的严格独立性。每种Mp13菌株在对数生长期早期培养,与Mp7以相等比例混合后,通过口服灌胃的方式给予小鼠(图3D和S4C)。
与Mp7相比,ΔyigZ和Δtrhp菌株在所有小鼠中的定植能力显著降低(图3E)。重要的是,ΔyigZ和Δtrhp菌株在体外没有检测到生长缺陷(图S4D)。ΔtcdA和ΔybaK显示出更高的个体间差异(图3E)。在灌胃后第3天从粪便中回收的ΔybaK细胞中观察到菌落形态的异质性,表明该菌株的一个亚群可能获得了补偿性突变(图S4E)。总之,我们的研究结果表明,yigZ和trhp是大肠杆菌Mp1菌株肠道定植所必需的。
过表达yigZ足以增强大肠杆菌K12(MG1655)的定植能力
经过近一个世纪的实验室培养和传代,家化的“野生型(WT)”大肠杆菌K12 MG1655菌株在小鼠和人类中表现出较差的定植能力。序列比较显示,与MG1655相比,所有肠道定植菌株的YigZ、Trhp、TcdA和YbaK中都存在氨基酸替换(图3C)。因此,我们想知道MG1655中的这些CF等位基因变体是否促使其定植能力降低,如果是这样,那么从肠道定植菌株(Mp1)中补充这些蛋白是否能够增强MG1655的定植能力。
为了提高定量的灵敏度和通量,我们开发了一种基因间基因组条形码系统(图4A和S5A - S5C),这使我们能够在单个动物中同时评估多个菌株的体内适应性(图4B)。我们生成了6个带有条形码的MG1655突变株,并将每个突变株转化了一个功能获得(GoF)质粒(图4B和4C)。这些GoF质粒包含三个组成部分:(1)pSC101复制起点,可确保质粒拷贝数的严格控制(每个细胞约5个拷贝);(2)一个GoF基因盒(图4C),每个基因盒中包含从大肠杆菌Mp13克隆的四个CFs中的一个,或全部组合;(3)赋予氯霉素抗性的CmR基因。一个带有空GoF盒的质粒作为对照(图4C)。所有CFs都由从Mp13克隆的内源启动子驱动。
图4 | YigZ的过表达足以增强大肠杆菌MG1655的肠道定植能力
(A)用于同时评估多个大肠杆菌菌株体内适应性的基因组条形码系统的示意图。为了引入基因组条形码,通过pCR生成含有随机20bp序列的双链DNA。利用λ-Red系统,将该双链DNA整合到多个大肠杆菌菌株中保守的rprA和ydiL基因间区域的染色体上。详细信息见STAR方法、图S5A - S5C和表S6。
(B)功能获得(GoF)小鼠实验的研究设计:带有独特基因组条形码和功能获得(GoF)质粒的条形码MG1655菌株被共同给予预先用链霉素处理的小鼠。然后收集粪便样本进行宏基因组DNA分析,以评估条形码频率,并通过选择性平板培养来估算绝对定植水平。
(C)GoF质粒中可变基因盒的设计,其特点是包含从大肠杆菌Mp13基因组克隆的带有天然启动子的基因。对照质粒在此区域不含额外序列。包含复制起点SC101和氯霉素抗性基因的恒定区域未显示。
(D)灌胃后第2天(左)和第3天(右)不同菌株的标准化频率。使用学生t检验进行统计。p值:*p
值得注意的是,与对照组相比,过表达yigZmp13的MG1655菌株在第2天的定植能力增强了114倍,在第3天增强了302倍(图4D)。含有所有四个基因的质粒的菌株在第2天和第3天分别表现出29倍和76倍的定植能力增强(图4D)。过表达tcdAmp13略微降低了MG1655的定植能力(图4D)。在第7天,所有小鼠的MG1655定植能力显著降低(图S5D)。过表达yigZmp13的菌株在体外被竞争性抑制(图S5E和S5F),这表明yigZmp13的适应性优势是特定于体内环境的。这些结果表明,yigZmp13的基因拷贝数适度增加(约5倍)可以显著增强大肠杆菌的早期肠道定植能力。总的来说,我们的功能丧失和功能获得实验揭示了在这四个与翻译相关的CFs中,有两个是真正的大肠杆菌CFs。
肠道适应性与在不同门类中更广泛的定植模块(CMs)多样性相关
在我们的实验验证的基础上,我们着手研究定植模块(CMs)和定植因子(CFs)在不同微生物物种中的分布和进化。CMs和CFs在主要的肠道微生物类群中广泛存在(图5A和S6A)。含有Trhp和YigZ的CMs是肠道微生物中最广泛存在的模块之一,除了YigZ在疣微菌门(Verrucomicrobia)中缺失(图5A,x轴上用黑框突出显示)。正如预期的那样,肠道微生物的基因组,无论是宏基因组组装基因组(MAGs)还是分离株,都比来自环境来源的基因组含有更多的CMs(图5B)。在每个分类学类别中,肠道微生物编码的CMs集合比分类学上相似的对应物种更大(图5C)。即使在更常存在于环境生态位的α-和γ-变形菌门中,这种趋势也依然存在(图5C)。在CMs的存在和分类学距离方面的物种相似性遵循距离衰减关系(图S6B),类似于之前展示的物种生态位分布的类似模式。
图 5 | 定植模块(CMs)的分类学分布和基因组编码模式
(A)35个与宏基因组组装基因组(MAGs)相关的定植模块(CMs)在主要肠道微生物类群中的分布。仅显示包含超过5个物种的类群。右侧的条形图显示每个类群中独特的物种数量。共使用了5149个宿主相关微生物(包括MAGs和分离株)来计算物种的CM谱。详细信息见STAR方法和图S6A。含有Trhp和YigZ的CMs在x轴上用黑框突出显示。
(B和C)来自不同生态位的基因组中每个基因组的独特CMs的总数(B)或按微生物类群划分(C)。文本反映了每组的中位数。p值通过Wilcoxon秩和检验计算,以水生和陆地基因组合并为参考组:*p
定植因子(CFs)在进化树中的分布和保守性
用于基因型-生态位关联分析的9K基因组仅限于具有明确生态位注释的高质量基因组。为了在真正具有代表性的进化树中更全面地描述CFs,我们将分析扩展到包括基因组分类数据库(GTDB)中的113103个代表性基因组的完整集合,使用MMseqs概况搜索(图S7A;STAR方法)。我们观察到CFs在不同门类之间显示出不同程度的普遍性(图S7B,左侧)和在门类内部的保守性(图S7B,右侧)。平均CFs数量最多的门类包括梭杆菌门、芽孢杆菌门和螺旋体门(图S7C)。值得注意的是,这些富含CFs的门类分布在进化树的不同分支上,而不是局限于亲缘关系较近的类群(图S7A,用红色突出显示的门类),这表明CFs在物种生态位适应中的作用可能在漫长的进化时间尺度上得以保守。此外,所有门类中CF基因集的完整性低于GTDB单拷贝标记基因的完整性(图S7C),这表明CFs在细菌谱系中具有更大的物种差异性和变异性。
为了定量评估每个CF与系统发育的关联程度,我们计算了每个CF在四个主要类群中最大的5个属的系统发育信号(图S7D和S7E)(图5A)。我们观察到一个复杂但又引人入胜的模式,即一个CF可能表现出截然不同的系统发育模式,在一个属中具有统计学上显著的系统发育信号,而在另一个属中则没有(图S7D)。例如,CF10(支链氨基酸转运蛋白BrnQ)在拟杆菌门中的Flavobacterium属表现出强烈的系统发育信号(图S7E,delta Z分数:287),但在其他属中信号较弱(delta Z分数:-0.15到11)(图S7E)。同样,CF43在γ-变形菌门中的paraburkholderia属表现出强烈的信号(delta Z分数:400),但在其他属中相关性较弱(图S7E,delta Z分数:
在不同物种中,定植模块(CMs)存在或缺失的双峰分布
为了在物种水平上评估定植模块(CMs)的保守性,我们计算了一组多样化物种中每个CM在所有基因组中的频率(图6A)。CMs在物种内的频率呈现出显著的双峰分布(图6A和S6C),将CMs分为两组——在大多数来自同一物种的基因组中持续存在或缺失。尽管不同物种编码不同的CMs子集(图6A),但这种物种内CM频率的双峰分布对于每一个分析的物种都持续存在(图S6C)。对794个和3533个高质量的艰难梭菌和大肠杆菌基因组组装进行扩展分析进一步证实了这种模式(图6B)。在CF水平上也观察到这种物种内的双峰频率(图S6D和S6E)。总之,CFs/CMs持续显示出双峰分布,要么主要存在,要么大部分缺失。因此,当仅比较亲缘关系较近的基因组时,这些CFs不会出现差异性存在,这突出了在进化树尺度上进行基因型-生态位关联分析的必要性。
图6 | CMs在物种内的稳定性
(A)CMs在物种内的频率。方块颜色表示物种内的频率。只有包含超过10个基因组的物种被纳入此分析。系统发育树源自GTDB细菌分类树(r95),并在属级别上进行了折叠。含有Trhp和YigZ的CMs用黑框突出显示。
(B)艰难梭菌(n=794个基因组)和大肠杆菌(n=3533个基因组)中CM物种内频率的直方图。蓝色和红色虚线分别表示CM物种内频率为10%和90%。详细信息见STAR方法和表S4。
yigZ中的自然等位基因变异导致不同的定植能力
尽管在物种内CMs的存在是保守的,但一些CMs在菌株之间表现出非同义编码(图3C)和拷贝数(图S6F和S6G)的变异。因此,我们试图研究这些物种内的变异是否会导致菌株的肠道定植表型的变异性,以YigZ作为测试案例。对2948个自然发生的大肠杆菌分离株的深入分析显示,YigZ在第25位和第146位残基处存在两个频繁的氨基酸替换(图7A)。这两个残基分别位于古老的N端IMpACT结构域和C端延伸因子G(EF-G)样结构域(图7B),它们也区分了家化的K12菌株和宿主相关的Mp1菌株中的YigZK12和YigZMp1(M25L和H146S)(图3C)。为了测试yigZK12和yigZMp1是否赋予不同的定植能力,我们分别从MG1655(K12)和Mp1菌株中克隆了yigZ的CDS和启动子区域(图3C和S5G),并将它们在MG1655中过表达,进行体内竞争实验。我们发现,与pyigZK12-YigZK12相比,pyigZmp1-YigZMp1在灌胃后第3天赋予了约4.5倍的更高定植优势(图7C)。将启动子或CDS替换为MG1655版本会降低功能获得(GoF)效应(图7C)。更广泛地说,在种群水平上,与环境中的菌株相比,YigZMp1编码菌株在1135个人类相关的大肠杆菌分离株中更频繁地被观察到(图7D)。这些基于实验室实验和生态观察的发现强调了CMs在序列水平上的进化可以进一步推动同一物种中亲缘关系密切的菌株之间的不同生态位适应性。
图7 | 自然YigZ等位基因变异导致大肠杆菌菌株之间的定植差异
(A)从NCBI病原体检测项目(pDp)收集的3112个大肠杆菌分离株中YigZ残基的序列变异(熵)。通过infotheo R包中的熵函数,以YigZK12为参考,计算比对后的YigZ序列中每个残基位置的熵值。
(B)YigZK12(pDB:1vi7)的结构,其中两个频繁变异的位点用红色突出显示。
(C)在灌胃后第3天(n=12只小鼠),带有条形码的MG1655菌株携带对照质粒(灰色)或YigZ功能获得(GoF)盒(pyigZMp1-YigZMp1:深绿色,pyigZK12-YigZMp1:浅绿色,pyigZMp1-YigZK12:深蓝色,或pyigZK12-YigZK12:浅蓝色)的体内频率标准化值(frequencynorm)。每个点反映了一只小鼠中指定菌株的平均frequencynorm值(frequencynorm计算方法见STAR方法)。与底部所示的对照组相比,相对变化倍数是通过所有小鼠的中位frequencynorm值计算得出的。使用Wilcoxon秩和检验并进行Benjamin-Hochberg多重比较校正来确定统计学意义;p值:****p
(D)基于两个非同义突变(M25L和H146S)的人类相关和环境相关大肠杆菌分离株中YigZ变体的频率分布。变体被分为YigZMG1655、单突变(M25L和H146S)和双突变(M25L + H146S,YigZmp13)。每种变体的频率分别针对人类和环境相关组进行计算,并用文本表示。*p = 0.006,通过单侧两样本等比例检验得出。
作者简介
哥伦比亚大学生物科学系Menghan Liu为本文的第一作者,生物科学系教授Saeed Tavazoie为本文的通讯作者。
Saeed Tavazoie(通讯作者)
Saeed Tavazoie 是生物科学系的教授。在 2011 年加入哥伦比亚大学之前,他曾是普林斯顿大学分子生物学系和整合基因组研究所的教授。他的研究重点是了解细胞适应,特别是细胞如何在短期生理适应和长期适应性进化期间达到适应性基因表达状态。多年来,他的实验室在解码驱动适应性转录反应的基因组元件和揭示适应极端环境的遗传基础方面做出了重要贡献。Tavazoie 教授是 2008 年 NIH 主任先锋奖的获得者,个人H指数为35,累计发表论文71篇,论文总被引数累计8517次,主要研究方向涵盖生物化学,遗传学和分子生物学、农林科学、免疫学与微生物学、综合性学科等领域,在Nature、Cell和Science顶级期刊累计发表12次。
翻译:杨海飞,青岛农大,基因组所联培硕士在读;
审核:朱志豪,广东医科大学,基因组所联合博士后;
终审:刘永鑫,中国农科院基因组所,研究员/博导;
排版:荀佳妮,中国农科院基因组所,生物信息学硕士在读
宏基因组推荐
1月10-12日,单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源
2月21-23日,家系、肿瘤临床基因组/外显子组数据分析
3月21-23日,高级转录组分析和R语言数据可视化
3月28-30日,第二届全国基因组信息学大会
4月11-13日,微生物组-扩增子16S分析
5月11-13日,微生物组-宏基因组分析
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。
投稿请联系小编(-genomics)
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,已有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
来源:微生物组