Microbiome | 当代微生物组研究的蓝图

360影视 国产动漫 2025-05-16 11:37 2

摘要:2025年4月8日,比利时布鲁塞尔鲁汶天主教大学Laure B. Bindels等在Microbiome发表了题为 ‘A blueprint for contemporary studies of microbiomes’ 的论文。这篇社论由Microbiom

2025年4月8日,比利时布鲁塞尔鲁汶天主教大学Laure B. Bindels等在Microbiome发表了题为 ‘A blueprint for contemporary studies of microbiomes’ 的论文。这篇社论由Microbiome的高级编辑共同撰写,旨在强调环境和宿主相关微生物组研究领域的当前挑战。编辑们还借此机会澄清了编辑对提交给该杂志的文章的期望。在Microbiome,编辑正在寻求研究,这些研究要么为微生物组在健康和环境系统中的作用提供新的机制见解,要么提供实质性的概念或技术进步。手稿需要满足语言准确性、微生物组分析质量以及数据和方案可用性的高标准,包括湿实验室和计算机模拟方案的详细报告,所有这些都可以极大地提高透明度和可重复性。编辑们认为,这些努力对于在协调一致的国际努力中突破对微生物组的知识边界至关重要。以下是论文具体内容:

关于准确术语的重要性

微生物组(microbiome)、微生物群(microbiota)、丰度(abundance)、16S 核糖体RNA(rRNA)基因(16S ribosomal RNA (rRNA) gene)和宏基因组学(metagenomics)等术语的误用,已导致科学界和公众对许多研究产生误解[1-3]。微生物群包括栖息在生态系统中的微生物群落(细菌、古菌、真菌、病毒和原生生物,包括微藻),尽管大多数研究仅调查微生物群中的细菌组分[3]。术语“微生物群”应与术语“微生物组”区分开来,后者涵盖整个微生物生态系统,即微生物群落及其活动场所(包括结构元件(基因、表达基因和蛋白质)、代谢物/信号分子及其周围环境条件)[3]。术语“微生物区系”(microflora),常被错误地用作“微生物群”的同义词,指的是“微观植物或微生境的植物或菌群”[2]。另一个新兴的语义问题是使用术语“伪无菌小鼠”(pseudo-germfree mice)来指代抗生素处理过的小鼠。这个术语无法定义,生物学上不合理且具有误导性,因此不应使用。 围绕用于评估微生物群组成和功能的方法论命名也存在混淆。编码 16S 或 18S rRNA 基因高变区的 PCR 扩增子测序应描述为“16S rRNA 基因扩增子测序”或“18S rRNA 基因扩增子测序”;使用该术语的缩写形式(例如 18S 或 16S 测序)或提及 rDNA 是不准确的。虽然这种技术提供了关于微生物群原核成员的多样性和分类组成的信息,但不能将其描述为“宏基因组学”。 宏基因组学指的是对给定样本内所有 DNA 的随机测序[2],并提供有关所研究微生物群落功能潜力的信息。另一个导致技术误解的重要语义问题是在报告扩增子测序或宏基因组研究的比例结果时广泛使用术语“丰度”[1]。提及“丰度”具有误导性,必须使用术语“相对丰度”(relative abundance)。如果能提高文本的清晰度,可以使用诸如“出现率”(occurrence)或“存在”(presence)等通用术语,但需记住测序方法通常仅限于优势种群,并不能检测复杂微生物群落中的所有成员。存在定量的微生物组分析方法,例如培养法或通过流式细胞术或定量 PCR 进行的细菌载量定量测量校正后的测序图谱[4-6]。在这种情况下,数据是“绝对丰度”(absolute abundances),但这些方法实施起来更复杂,并且始终需要使用复杂的模拟群落(mock communities)进行基准测试。 误导性语言还可能包括将微生物与其宿主或环境的所谓有益或负面效应联系起来的方式。例如,宿主相关的乳杆菌(lactobacilli)和双歧杆菌(bifidobacteria)常被错误地称为益生菌(probiotics)[1]。施用于宿主并具有潜在健康益处的外源微生物可被称为益生菌候选者;相反,微生物群落的内源性成员是共生菌(commensals),而非益生菌。总的来说,应注意不要将整个微生物分类群,尤其是科或属,标记为益生菌、有益的、致病的、有害的或致病共生菌(pathobionts),因为观察到的效应可能是高度物种特异性甚至菌株特异性的[7, 8]。 命名规则和分类准确性也很重要。有规定生物体必须如何命名的规则。对于培养的细菌,这些规则由国际原核生物系统学委员会(ICSP)维护的《国际原核生物命名法规》(ICNP)制定[9, 10]。2021 年,分类阶元“门”(phylum)被添加到法规规则涵盖的级别中,这导致了许多广泛使用的门名称的更新,例如 Bacillota(以前的 Firmicutes厚壁菌门)或 Bacteroidota(以前的 Bacteroidetes 拟杆菌门)[11]。原核生物名称有效发表名录(LPSN)是作者检查细菌名称有效性的良好参考[12, 13]。重要的是,并非所有数据库在细菌的分类位置和命名上都达成一致,并且它们并非都系统地更新,这凸显了在基于测序的微生物组分析中报告用于命名微生物的资源名称和版本的重要性。最全面的数据库之一是基因组分类数据库(GTDB)[14]。它为原核生物基因组提供了一个系统发育一致且级别标准化的基于基因组的分类系统。然而,它并不严格遵循 ICNP 的命名规则,并且也包含根据 SeqCode [15] 验证的名称。 在 Microbiome,我们要求有效发表的细菌名称按照美国微生物学会(American Society for Microbiology)和《细菌学杂志》(Journal of Bacteriology)的指南书写[16, 17]。本质上,任何分类级别(界、门、纲、目、科、属、种和亚种)的有效发表拉丁名称都应使用斜体。相反,拉丁细菌名称的英语化版本,如 bifidobacteria, lactobacilli, clostridia, 或 enterococci,则首字母小写且不使用斜体。菌株名称或编号也不应使用斜体。对于属于 ‘Candidatus’ 类别的分类单元,单词 ‘Candidatus’ 应以斜体打印,但属名和/或俗名加词不应使用斜体[18, 19]。对于重新分类的分类单元的最新有效名称或存在同义词的情况,作者可以在括号中添加对先前或其他名称的引用,以方便读者理解。同样,对于真菌、原生生物和藻类的分类也存在国际框架。我们建议研究这些类群的研究人员熟悉这些惯例,并在出版物中明确说明所使用的名称来源和分类系统。对于病毒,国际病毒分类委员会(ICTV)是制定、完善和维护通用病毒分类系统的权威机构[20]。

避免微生物组分类和功能分析中的陷阱

在微生物群分析的每一步都可能引入偏差,例如对个体微生物群成员的高估/低估,以及导致假阳性/假阴性分类单元识别的污染/损耗问题:样本采集和保存、DNA 提取、文库构建、测序、生物信息学、生物统计学和数据可视化。最近关于胎盘或产前人类微生物组是否存在的争议,现在普遍认为是由污染和误解造成的,就是一个微生物组报告如何对科学讨论产生持久影响的例子[21, 22]。应通过遵循通用和当前的技术建议,包括对照和足够的重复,来最小化这种风险,详见他处[23-25]。重要的是,手稿应始终包含对这些技术方面的详细描述,包括重现工作所需的所有实验细节。

经常被省略的细节示例包括(非详尽列表):样本采集方法、样本储存时长和条件、DNA 提取过程中的裂解方法、使用的引物和循环数(对于扩增子研究)、防止分析虚假分类单元的湿实验和干实验策略。随着该领域持续发展,污染、实验挑战和技术偏差永远无法完全避免,因此在手稿中对其进行详细、全面和透明的评估、表征和讨论仍然是发表在 Microbiome 上研究的关键要求。

适当的对照

应在整个提取、测序和分析过程中包含充分的实验对照、试剂阴性对照(也称为“空白”)和模拟群落,并根据具体研究目标调整其确切性质。在处理低生物量样本(如口腔、呼吸道或环境微生物群)时,在过程的每一步引入阴性对照(例如,无样本的 DNA 稳定溶液、采集装置对照、提取对照、PCR 对照)至关重要,以更好地控制来自试剂和其他污染源的假象[26, 27]。阴性对照的数据应与样本数据一同发布,其分析结果应与研究样本的结果进行比较,其解释将取决于项目[22, 27]。同样,应包含生物模拟群落(即,已知微生物或其 DNA 的混合物,如果可能,反映所研究微生物群落的多样性和分类组成),以评估分类分析中的潜在偏差。模拟群落的组成和测序结果也应与研究中的其他数据一起公开;这种组成应与理论组成进行比较[28, 29]。除了通用对照外,还需要开发生境特异性的模拟群落。对于复杂环境,应考虑更高多样性(例如,超过 10 个分类单元)的模拟群落。非生物模拟群落(即,包含实验室制造的、自然界中不存在的可变区的样本)也与评估样本间污染和标签跳跃(tag switching)以及参数化生物信息学流程相关[30]。

DNA 提取

DNA 提取方法对微生物组分析的结果有很大影响[31]。应优化核酸提取以获得样本/环境基质中微生物群落的准确代表[32]。例如,强烈建议在粪便和土壤样本的提取方案中加入珠磨(bead-beating)步骤,以避免丢失特定分类单元[33, 34]。然而,偏差似乎与提取过程固有相关;没有一种“万能”方案能够准确捕获给定样本中存在的所有菌株的基因组[35]。复杂群落中所有分类单元的检测也受到当前测序方法性质的限制,这些方法实际上仅限于优势种群。复杂样本(如植物组织)的 DNA 提取可能导致线粒体和叶绿体rRNA 基因的污染,这是一个重要的偏差来源[36]。在这些情况下,我们建议使用特异性阻断剂和/或区分性 PCR 引物[37]。

测序

存在多种用于微生物组分析的基于测序的方法和技术,各有优缺点[38]。总的来说,我们建议使用独特的双端索引(unique dual sequencing indices)来减少解复用(demultiplexing)步骤中读段错误分配的风险[39]。对 16S rRNA 基因、18S rRNA 基因和真菌内部转录间隔区(ITS)区域的扩增子进行测序,使研究人员能够评估细菌、真核生物和真菌群落的多样性和组成,在大多数情况下,根据所研究的生态系统和分类群,可以达到科或属的水平。实现对整个基因甚至核糖体 RNA 操纵子进行测序的方案将提高分辨率[40-43]。扩增子方法可以被鸟枪法测序(shotgun sequencing)补充或替代,用于宏基因组分析。尽管成本更高、计算要求更高,并且难以用于低生物量样本,但宏基因组学有助于实现菌株水平的分辨率,并在测序深度足够的情况下获得功能潜力的见解[44]。与扩增子测序相比,浅层宏基因组学(Shallow metagenomics)具有避免 PCR 偏差的优势,但无法提供深度鸟枪法测序所能达到的分类准确性和功能性水平。基于 18S 或 16S rRNA 基因衍生的分类信息预测功能性微生物群谱是不可靠的,主要是因为未知微生物、缺乏合适参考基因组的微生物比例很大[45, 46],以及即使是同一物种的菌株之间也存在显著的基因含量差异[47, 48]。因此,我们不推荐基于标记基因的干实验功能预测,除非有额外的分析支持或用于产生随后通过实验检验的假设。

测序数据分析

测序数据的预处理和下游分析可以使用多种工具完成。这里的目标不是提供建议,而是阐明重要的一般性方面。首先,在 Microbiome,我们强烈鼓励使用开源工具,这对于确保分析的可重复性和评估与此步骤相关的潜在偏差至关重要;这方面将在下文进一步阐述。其次,应使用最新版本的分类数据库,以确保充分的分类分析。由于持续努力表征微生物生态系统中的未知分类单元,此类数据库正在迅速发展[12, 49-51]。如上所述,数据库之间的命名法存在不一致,并且数据库可能存在注释缺陷。因此,要求作者说明版本号或访问日期,以确保报告的结果是可追溯的。宏基因组学在注释准确性和维护高质量参考数据库方面面临着与扩增子测序类似的挑战。基因组解析宏基因组学(genome-resolved metagenomics)的改进使得能够创建全面且生态系统特异的种群基因组或分类学注释基因目录[52-57]。然而,这些资源生成速度如此之快,以至于跨系统的维护和协调是主要挑战[58-60],从头生成样本特异性基因目录或基因组可能更可取[61]。第三,Microbiome 鼓励提交旨在对新的甚至已建立的宏基因组软件进行基准测试的、彻底且全面的研究。在宏基因组解释关键评估(CAMI)倡议的支持下,适当基准测试的指南正在形成[62, 63]。在未来的基准测试研究中,具有更高复杂性和针对不同微生物生境特异性的生物模拟群落将发挥重要作用,例如,用于评估用于重建宏基因组组装基因组(MAGs)的生物信息学工作流程,因为它们被广泛用作分析宏基因组数据和得出微生物组中菌株水平差异结论的参考。

生物统计学分析

生物统计学分析的一个关键方面是使用考虑到测序产生的微生物数据集的组成型(compositional)性质的方法,这些方法适合研究设计,并包括错误发现率(FDR)校正[64-67]。建议对已知对测序深度敏感的特定分析使用稀疏化(rarefaction)技术。微生物组测序数据集通常是稀疏的,意味着它们经常包含零计数(0),这是因为分类单元或基因未被检测到或不存在。在统计分析和数据呈现中使用空值一直存在争议,因为空值只能表明给定的分类单元未被检测到,可能是因为它属于次优势群落的一部分[68]。是否包含空值的选择最终取决于研究的目标。一种解决方案是仅在包含这些分类单元的样本中比较其出现情况,并通过普遍性测试(prevalence testing)分别评估存在/缺失。所使用方法的选择也会影响结果。关于差异丰度微生物的鉴定,诸如 ALDEx2 和 ANCOM-II 等方法在不同研究中产生最一致的结果,并且与不同方法结果的交集最为吻合[64]。与这项研究一致,我们建议使用基于多种差异丰度方法的共识方法,以帮助确保稳健的生物学解释。所有这些分析方面都应始终仔细考虑并清晰报告。

数据解释

如上所述,以相对或绝对水平表达的分类单元或基因的丰度可能导致不同的解释[4, 69]。考虑到比较微生物载量不同的微生物群落的分类组成可能产生的潜在偏差,我们还建议(如果可能)用研究中感兴趣的微生物分类单元的绝对定量来补充组成分析[1, 70-72]。一个由相对丰度差异引起的著名误解是所谓的厚壁菌门与拟杆菌门比率(Firmicutes to Bacteroidetes ratio)(根据当前命名法为 Bacillota 与 Bacteroidota 比率)。提出该比率的原始研究效力不足(underpowered),且门(phyla)涵盖了各种各样的细菌菌株,因此该比率并不能提供功能性见解[35]。因此,不鼓励提交给 Microbiome 的研究在没有提供充分信息说明为何这样做并进一步证明研究结果有效性的情况下,基于此比率得出结论。 微生物组研究中的另一个主要挑战是 alpha 多样性(alpha-diversity)指标的解释。多样性是一个在微生物组研究中经常使用(有时被滥用)的通用术语,并且由于“低多样性”肠道微生物组被认为与多种疾病相关而成为主要兴趣点。由于微生物生态学中的多样性分析涉及多个方面且存在不同观点,我们在此仅报告我们自己对有限数量元素的看法。Alpha 多样性描述了给定样本内的细菌多样性,其指标侧重于丰富度(richness),反映样本中观察到的不同分类单元的数量,或均匀度(evenness),评估这些分类单元分布的均匀性,或同时考虑这两个参数[73, 74]。总的来说,在报告 alpha 多样性时,我们建议使用经过稀疏化处理的数据,以考虑测序深度的差异[75]。重要的是,许多用于评估生态系统多样性的方法是为基于景观的多样性估计而开发的,在用于微生物组数据之前应质疑其适用性。例如,Chao1 和 ACE 估计量常被使用,但它们的计算基于数据集中单例(singletons)的出现。鉴于微生物组数据是稀疏的,单例的出现随测序深度而变化,并且生物信息学数据处理通常涉及去除单例,因此在大多数情况下,尤其是在基于扩增子序列变异(ASV)的分析方法中,不应使用 Chao1 和 ACE 指数[76]。香农指数(Shannon index)也常被使用,但正如直径是球体体积的一个指标一样,香农指数只是与多样性相关的一个参数。指数与多样性之间没有直接的比例关系(香农指数加倍并不意味着多样性加倍),并且香农多样性“统计学显著”变化的生态系统意义难以理解且可能具有误导性。一种替代方法是根据香ノン指数计算有效物种数(effective number of species),它提供了一个易于解释的物种数量,该数量整合了它们在样本中的相对比例[77]。最后,由于不同研究之间固有的标准化和过滤步骤不同,来自不同研究的 alpha 多样性指标不能直接比较。新的概念,如有效微生物丰富度(effective microbial richness)[28],正在出现以解决这个问题,我们鼓励对其进行评估和使用。

数据可视化

我们建议使用箱线图(box plots)或小提琴图(violin plots)代替堆叠条形图(stacked bar plots),原因有几个。首先,堆叠条形图无法可视化数据分布及其标准差。其次,数量可能很多的低丰度分类单元在堆叠条形图中不可见。第三,绘制过多分类单元会妨碍直接的视觉识别,因为需要太多相似的颜色。如果研究中不可避免地要包含堆叠条形图来表示显著变化,它们必须显示单个样本中的分类组成(单独呈现生物学重复)。此外,应使用呈现低丰度分类单元的策略,例如相对丰度或普遍性过滤器,以增强可视化效果。我们还建议使用色觉缺陷(CVD)友好型调色板[78]。

报告和共享微生物组研究

详细报告微生物组研究对于研究的可重复性至关重要,这一直是 Microbiome 的优先事项[79]。我们支持加强微生物组研究组织和报告(STORMS)指南,该指南描述了针对人类微生物组研究的实验室、生物信息学和统计分析的报告要素[80]。环境和宿主相关微生物组研究技术报告标准(STREAMS)指南正在基于 STORMS 报告清单编写,这将允许将这些指南扩展到环境、非人类宿主相关和合成微生物组研究[81]。 与可重复性的重要性一致,Microbiome 遵循严格的数据发布政策,并期望数据集符合可发现性(Findability)、可访问性(Accessibility)、互操作性(Interoperability)和可重用性(Reusability)(FAIR)原则[82]。FAIR 原则特别强调增强机器自动查找和使用数据的能力,以及支持个人对其的重用。这些原则不仅适用于严格意义上的“数据”,也适用于导致所呈现发现的元数据、算法、工具和工作流程。根据这些原则,我们要求在文章中用于产生发现和得出结论的所有数据集在提交时对审稿人可用,并在发表时公开可用,原始数据存放在公共存储库中[83]。除了在国际序列存储库中提供的元数据外,在提交的手稿中用于任何分析的元数据都需要以其完整形式在认可的存储库中提供,或作为手稿的支持文件提供。我们还建议包含一个或多个补充表格,将样本、来源、序列和元数据联系起来。元数据应根据基因组标准联盟(GSC)制定的 MIxS(关于任何(x)序列的最低信息)标准进行格式化[84]。需要报告所用软件的版本以方便重用,并提供足够的引用来支持那些免费提供这些工具的研究人员的工作。我们还要求作者通过公共来源提供其分析所用的代码/脚本,并附带相关许可证。这种使微生物学数据开放和 FAIR 的文化变革正由 NFDI4Microbiota [85] 和 NMDC [86] 等倡议和联盟推动。这些努力旨在长期促进微生物组分析的透明度和完全可重复性。

推动微生物组领域走向机制性理解

在 Microbiome,我们寻找具有普遍意义的手稿,这些手稿能为微生物组在健康和环境中的机制性作用提供重要的新见解,或在领域内带来重大的概念或技术进步。Microbiome 对那些超越描述性组学调查、包含实验或理论方法以机制性地支持所提出的微生物组功能,并在可能的情况下建立因果关系的研究尤其感兴趣。关联性研究虽然对于产生假设很有价值,但常常导致对因果关系的过度陈述和误解,从而引起公众的怀疑和科学界对接受微生物组重要性的犹豫,因此应进行自我批判和保守的解释。这一立场也源于大型多变量数据集中存在虚假相关性的风险[87-89]。这些通过生物信息学推断出的关联对于减少待检验的潜在假设数量很有用,但并不能排除最终进行实验验证的必要性[88]。 为了让微生物组研究促进有意义的进展,必须优先考虑那些超越相关性并提供稳健机制性见解的研究。在微生物组领域建立因果关系的方法已被广泛讨论[1, 90, 91]。产生机制性见解最可靠的方法是拥有一个精心构建的假设,一个能够稳健地探究该假设的取样或实验设计(即,包括所有必要的对照并测量所有相关变量),以及适当的、经过验证的方法来生成数据,使研究人员能够证实或否定该假设。有用的、能推动领域进步的假设必须解决一个重要的知识空白,该空白得到文献综述的充分支持,并在手稿的引言中概述并附有支持性引用。当然也存在例外,因为有用的机制性见解可以在没有明确假设的情况下产生(例如,使用代谢标记或点击化学方法等技术[92, 93]),并且对于某些生境和生态系统,现有知识非常有限,以至于无法从头构建有用的假设。 这篇社论是基于提交给 Microbiome 的论文以及 Microbiome 现任高级编辑之间的讨论而形成的。Microbiome 将继续致力于在这个不断扩展的领域中追求高质量的机制性研究,因为我们坚信遵循这条道路对于共同推动我们对微生物组知识的边界至关重要。

中心思想和亮点信息总结

中心思想:

这篇社论由 Microbiome 期刊的高级编辑团队撰写,旨在为微生物组研究领域的研究人员提供一份全面的指南和行为准则。文章强调了当前研究中存在的普遍问题和挑战,明确了期刊对于投稿文章在严谨性、准确性、可重复性和深度方面的期望,特别是对提供机制性见解研究的偏好,目标是推动整个领域朝着更可靠、更有影响力的方向发展。

亮点信息:

1. 术语准确性:强调区分“微生物组”(microbiome)和“微生物群”(microbiota),正确使用“相对丰度”(relative abundance)而非“丰度”(abundance),避免使用“伪无菌小鼠”等误导性术语,并遵循正确的分类命名法(如斜体、Candidatus 标注、LPSN)。

2. 避免分析陷阱:指出从样本采集到数据可视化的每一步都可能引入偏差和污染,强调使用阴性对照和模拟群落的重要性,特别是在低生物量研究中。

3. 方法学建议:

·DNA提取:推荐针对特定样本类型(如粪便、土壤)优化方法(如珠磨),并注意植物样本中宿主基因污染问题。

·测序:推荐使用独特的双端索引减少读段错误分配;指出扩增子测序主要提供科/属水平信息,而宏基因组学(尤其是深度测序)能提供菌株水平和功能潜力信息;警告不要基于标记基因(如16S rRNA)预测功能谱。

4. 数据分析规范:

·工具与数据库:鼓励使用开源工具和最新数据库版本,并报告版本号。

·统计方法:强调使用处理组成型数据的方法(如ALDEx2, ANCOM-II),进行FDR校正,谨慎使用稀疏化(rarefaction),并恰当处理零值。

·数据解释:建议补充绝对定量分析;不鼓励仅基于厚壁菌门/拟杆菌门比率得出结论;对alpha多样性指标(如Chao1/ACE在ASV数据上的局限性,Shannon指数的解释)提出警告,推荐使用有效物种数。

·可视化:推荐使用箱线图/小提琴图而非堆叠条形图,并使用色觉友好型调色板。

5. 报告与共享:强调详细报告(遵循STORMS/STREAMS指南)和数据/代码共享(遵循FAIR原则)对于可重复性的极端重要性,要求公开原始数据、元数据和分析代码。

6. 期刊偏好——机制性研究:——机制性研究:Microbiome 期刊特别寻求提供新机制性见解或重大概念/技术进步的研究,鼓励超越描述性关联研究,优先考虑那些通过实验或理论方法验证因果关系、基于严谨假设的研究。

总而言之,这篇社论为微生物组研究人员设定了高标准,旨在提高研究质量、透明度和可重复性,并引导领域关注更深层次的机制探索。

来源:微生物组

相关推荐