BiB | 浙大蒋超组开发iPhylo平台推动生物与化学分类学的整合分析

360影视 2025-01-09 08:37 3

摘要:● 2024年12月30日,浙江大学生命科学研究院蒋超实验室在Briefings in Bioinformatics杂志发表了题为“iPhylo: An Automated and Interactive Platform for Biological and

iPhylo工具集:一个用于构建和注释生物与化学分类树的交互平台

Briefings in Bioinformatics(IF:9.5)

● DOI:https://doi.org/10.1093/bib/bbae679

● 原文链接: https://academic.oup.com/bib/article/26/1/bbae679/7934571

● 2024年12月30日,浙江大学生命科学研究院蒋超实验室在Briefings in Bioinformatics杂志发表了题为“iPhylo: An Automated and Interactive Platform for Biological and Chemical Taxonomic Analysis”的研究论文。该工作开发了名为iPhylo的一个集成生物与化学分类分析、可视化和注释的自动化平台(https://www.iphylo.net/),可用于微生物组学、环境科学以及精准医学等领域的多组学数据分析。

● 发表日期:2024-12-30

● 主要单位:

浙江大学生命科学研究院(Life Sciences Institute, Zhejiang University, Hangzhou, Zhejiang 310030, China)

摘要abstract

准确且快速的分类对于在不同环境中系统地探索生物体和代谢物至关重要。虽然许多工具已被开发用于生物分类树,但仍存在一些局限性,特别是缺乏简化的化学分类树构建方法。我们推出了 iPhylo工具集(https://www.iphylo.net/),这是一个全面、自动化且互动的平台,用于生物与化学的分类分析。iPhylo工具集提供基于Web的模块,用于交互式构建和注释分类树,并且还提供独立的命令行界面(CLI),适用于本地操作或在高性能计算集群上的部署。iPhylo支持NCBI分类法进行生物分类,支持ChemOnt和NPClassifier进行化学分类。iPhylo的可视化模块完全基于R语言实现,用户可以将进度保存在本地,并自定义底层的R代码。最后,CLI模块还支持跨所有层级关系数据库的分析。我们展示了iPhylo工具集在可视化环境微生物组、分析肠道微生物代谢物合成偏好以及发现人类和环境微生物组与代谢组之间新型关联的能力。总体而言,iPhylo工具集凭借其统一和互动的框架,在生物和化学特征的深度分类及综合分析方面具有显著优势。

关键点

● 适用于生物和化学分类分析与可视化的平台。

● 独立的命令行界面模块,支持离线和高性能计算集群部署。

● 基于R shiny框架的交互式可视化模块,支持会话保存功能。

● 支持多组学的综合分析,并提供自定义的层级数据库,适用于超出分类学范畴的分析。

引言introduction

对人类及多样环境中生物体和代谢物的系统研究需要快速且准确的分类。近年来,NCBI和EMBL整理了全面的林奈生物分类法,以应对物种数量的快速增长。随着代谢组学在微生物组和精准医学中的重要性日益增加,化学分类分析的需求也在增加。类似生物分类系统,已有多个化学分类系统(如ChEBI本体、LIPID MAPS、ChemOnt和NPClassifier)应运而生,它们通过不同的层级标准对化学物质进行分类。利用分类树结构来呈现分类系统非常直观,能够简洁地表达各特征之间的层级关系。

目前,已有多个在线和独立工具提供分类、可视化和注释功能,包括MEGA、ETE Toolkit、phangorn、taxtree、IQ-TREE和PhyloT等生物学分类树工具。ChemTreeMap、Qemistree、CluMSID和BioDendro则是一些针对化合物的工具,专门用于基于质谱特征对化学物质进行聚类和鉴定,并提供相应的可视化功能。在可视化和注释方面,ggtree是一个广泛使用的R语言包,用于可视化系统发育树。此外,iTOL作为一个成熟的基于Web的可视化和注释工具,也广受欢迎,而新开发的Web工具TVBOT提供了类似的功能。

然而,这些工具仍存在一些局限性。大多数软件只能在分类工作流的不同阶段使用,切换工具可能导致数据格式不兼容等问题。主流工具PhyloT和iTOL需要付费才能使用完整功能。化学分类树构建和注释存在困难,现有工具无法提供类似系统发育树的化学分类树,无法呈现化学品的分类、生物特性、合成途径及代谢参与。随着精准医学和微生物组研究中代谢组与宏基因组数据整合的需求增加,迫切需要一个统一的平台来构建、可视化、注释并整合生物学和化学分类树。

为此,我们推出了 iPhylo工具集:一个完全自动化且互动的生物学与化学分类分析平台。iPhylo工具集包括三个模块。iPhylo Tree和iPhylo Visual模块基于Web,旨在简化工作流程,涵盖树形生成、交互式和综合的树形可视化,以及广泛的图形和文本注释功能。iPhylo CLI模块则适用于本地使用和高性能计算应用,配备了最新且保持更新的生物学和化学分类数据库。在本研究中,我们将iPhylo工具集应用于多个场景,这些案例展示了iPhylo工具集在不同情境下提供了全面且集成的生物与化学分类分析方法。与现有工具相比,iPhylo工具集提供了更全面的功能和创新特点。

结果results

总体工作流程

iPhylo工具集包含三个模块(图1):(1) iPhylo Tree树生成模块:可以在几分钟内快速生成生物或化学分类树,支持多达数万个有机体和化学物质(https://www.iphylo.net/)。(2) iPhylo Visual可视化模块:基于R框架开发,主要用于可视化和广泛注释分类树(https://www.iphylo.net/visual/)。iPhylo Visual还提供了本地保存和上传工作会话的便利功能,同时支持绘图和注释的源代码访问。Tree和Visual模块无缝集成,用户可以通过简单的一键操作,将Tree模块的结果快速导入,获取可视化结果,从构建到注释都能轻松完成。(3) iPhylo CLI是Tree模块的离线命令行版本,集成了可下载的本地数据库,可以在本地或高性能计算集群上部署。通过iPhylo CLI,用户可以根据自定义的层级数据库构建定制化的分类树,这使得iPhylo套件的应用不仅局限于生物和化学分类,还可以扩展到更多领域。

图 1 | iPhylo工具集的整体工作流程。

图 2 | iPhylo工具集用户界面。

(A)主页(B)树生成模块页面 (C)可视化模块注释仪表盘 (D) 可视化模块注释检视页面

案例研究1: 多样性细菌基因组目录的可视化——以冰川微生物群为例

在本案例中,我们使用iPhylo工具集可视化了西藏冰川宏基因组组装基因组(MAGs)和培养细菌基因组。数据包含2,358个宏基因组组装基因组(MAGs)和883个培养细菌基因组。这些基因组被聚类为968个物种级操作分类单元(OTUs)。我们使用iPhylo CLI构建了一棵定制化的分类树,整合了每个基因组的GTDB分类。

为了优化可视化过程并确保显示效果和功能,我们从完整树中采样生成了一棵子树,包含440个末端节点和174个内部节点。接下来,我们利用iPhylo Visual对树进行展示和注释,并标注了多个基因组特征,包括基因组来源、16S rRNA的存在情况、tRNA基因数量、基因组大小、GC比例以及基于MAG标准的基因组质量(图3)。

生成的图形与原始研究中的使用iTOL生成的树类似,但使用了更简洁且用户友好的过程。相比于针对不同维度使用专门的注释模板,我们将所有注释数据准备为电子表格形式,并以交互方式设置显示。这种方法不仅使注释过程更简单,还提升了可重复性,使iPhylo在使用体验和操作便捷性方面区别于iTOL。

图 3 | iPhylo可视化了带有丰富注释的系统发育树。

注释信息包括基因组类型(培养基因组、MAG)、16S rRNA的存在情况、分类级别(Phylum)、以及基因组质量。其他信息包括tRNA数量、基因组大小和GC含量。数据来源:Liu, Ji et al. 2022。

案例研究2:人类肠道微生物组中单个细菌菌株代谢特征的可视化与分析

肠道微生物与多种代谢途径相关,并在调节宿主表型和整体健康中发挥重要作用。Han等人报道了涵盖158种微生物菌株和833种代谢物的肠道微生物代谢特征。在该研究中,每种微生物的培养物都经过液相色谱-质谱(LC-MS)化学检测。根据这些数据,我们选择了154种菌株(其分类由NCBI分类系统支持)和813种代谢物(化学分类由ClassyFire数据库支持)进行后续分析。

我们首先构建了这些微生物所产生的813种代谢物的化学分类树,提供了一个11个超类、84个类和157个亚类的化学本体概览(图4A)。接着,我们构建了产生所选代谢物的菌株的系统发育树,这些代谢物包括腐胺、胍丁酸、鸟氨酸和瓜氨酸。这四种代谢物在原始研究中被突出为衡量菌株代谢表型的潜在指标。我们使用iPhylo Visual绘制了这些选定代谢物在所有菌株中的丰度,并采用气泡图进行展示(图4B)。此外,我们使用热图展示了微生物的分类及其完整的代谢组特征。

为进一步研究微生物与代谢物之间的潜在关联,我们使用iPhylo Visual的phylo-tree linker可视化肠道微生物与代谢物之间的生物合成关系。

高香草酸(HVA)是一种主要的儿茶酚胺代谢物,通过多巴胺的酶促作用生成。研究表明,某些肠道微生物能够生物合成HVA,这种代谢物具有抑制自噬性细胞死亡的能力,从而恢复突触功能,并可能缓解抑郁症状。我们的分析识别出特定的厚壁菌门菌株是HVA的生产者,强调了它们在HVA生物合成中的重要作用及其对神经代谢通路的潜在影响(图5A)。

酒石酸是一种天然有机酸,被广泛用作食品添加剂,并在制药行业中作为重要的对映体分离剂。多项研究和专利记录了细菌如棒状杆菌属(Corynebacterium sp.)、红球菌属(Rhodococcus sp.)、阿尔卡利根斯左旋酒石酸菌(Alcaligenes levotartaricus)、塔尔塔尔氏不动杆菌(Acinetobacter tartaricus)和农杆菌(Pseudomonas agrobacterium)通过立体特异性的顺-环氧琥珀酸水解酶表现出高水平的酶活性来生产L-(+)-酒石酸。我们的研究结果表明,酒石酸的生产者完全属于拟杆菌门(图5B)。这一发现凸显了拟杆菌门在酒石酸生产中的重要作用,并提示需要进一步研究其生物合成途径。

铜卟啉III(CP III)是一种天然卟啉衍生物,在血红素和胆红素的合成中起着关键作用。在本案例研究中,我们发现CP III的合成仅限于拟杆菌门和厚壁菌门,在其他门类中未观察到其生产(图5C)。

本案例研究展示了iPhylo工具集在整合和可视化化学及生物分类树方面的独特多功能性。通过结合代谢物生产的丰度数据,可以识别并直接可视化独特的微生物-代谢物关联。

图 4 | 使用iPhylo构建的化学和注释系统发育树,展示单个细菌菌株的代谢物生物合成特征。

(A) 基于化学InChIKeys生成的代表性化学分类树,并按照超类、类别和亚类(从内到外)进行注释。

(B) 使用NCBI分类ID构建的系统发育树,其分支按照门水平进行颜色编码。该树进一步标注了四种关键代谢物(胍丁酸、瓜氨酸、鸟氨酸和腐胺)的丰度。丰度通过内部标准校正的折叠变化数据计算得出。

图 5 | 使用iPhylo Visual的phylo-tree linker显示的门特异性代谢物生产示例。

(A) 香草酸仅由厚壁菌门生产。

(B) 酒石酸仅由拟杆菌门生产。

(C) 铜卟啉III特异性地由拟杆菌门和厚壁菌门合成。

案例研究3: 使用iPhylo探索人类微生物组与代谢组之间的关联

在本案例研究中,我们应用iPhylo工具集分析人类微生物组与代谢组之间的相互作用。我们利用纵向数据,分析了人类微生物组和相应代谢组的概况。我们分别对微生物组和代谢组的定量数据进行了分类,并构建了相应的树状图。代谢物的分类采用了NP Classifier分类体系。此外,我们还计算了微生物属与宿主代谢物之间的相关性,以识别潜在的微生物-代谢物关联。

我们的分析揭示了特定微生物与代谢物之间的显著正相关和负相关关系(图6A),表明可能存在生物学上的相互作用。例如,我们发现1-甲基黄嘌呤和对甲基黄嘌呤等生物碱与Phocaeicola菌属呈正相关。这一发现表明生物碱可能促进Phocaeicola菌属的生长和繁殖。苯二酸十一烷酯(Diundecyl phthalate)是一种邻苯二甲酸酯。研究表明,邻苯二甲酸酯可以被吸收到血液和体液中,干扰生理机制,从而导致显著的内分泌紊乱。多项研究表明,环境中邻苯二甲酸酯的降解主要由严格好氧菌如节杆菌属(Arthrobacter sp.)、不动杆菌属(Acinetobacter sp.)和假单胞菌属(Pseudomonas sp.)进行,部分由兼性厌氧菌如芽孢杆菌属(Bacillus sp.)、沙雷氏菌属(Serratia sp.)和肠杆菌属(Enterobacter sp.)降解。在我们的研究中,我们识别出几个与苯二酸十一烷酯呈正相关的细菌属,分别是多尔氏菌属(Dorea)、厌丁酸菌属(Anaerobutyricum)、Raoultibacter菌属、艾湖菌属(Ihubacter)和阿德勒菌属(Adlercreutzia)。我们的发现表明,这些肠道微生物可能具备代谢邻苯二甲酸酯的能力。

重要的是,我们还发现几个微生物属与色氨酸代谢呈负相关。Raoultibacter菌属、Adlercreutzia属和戈登菌属(Gordonibacter)与L-甲酰犬尿氨酸(L-formylkynurenine)呈负相关,L-甲酰犬尿氨酸是色氨酸降解的奎宁酸途径中的一个中间产物,并作为该途径中若干后续反应的底物。同样,另枝菌属(Alistipes)、Barnesiella属和Raoultibacter与吲哚乙酰谷氨酸(IAG)呈负相关,IAG是色氨酸代谢分解产物吲哚-3-乙酸(IAA)的衍生物。这些观察结果表明,这些微生物可能参与色氨酸代谢及其后续降解。此外,我们的分析显示,Agathobacter属与吲哚乙酰谷氨酸和吲哚乳酸(ILA,色氨酸代谢中间体吲哚丙酮酸形成过程中的衍生物)呈正相关。Agathobacter属能够生产色氨酸合成酶,催化L-色氨酸从其前体吲哚-3-甘油磷酸的合成。因此,正相关关系表明,Agathobacter属通过其酶活性,积极参与IAG和ILA的生成,从而在色氨酸代谢过程中发挥作用。

案例研究4:使用iPhylo探索环境空气生物和化学暴露组之间的关联

我们进一步将iPhylo工具集的应用扩展至人类以外的环境暴露组研究。暴露组描述了人类在短期和长期时间范围内受到的所有环境暴露。Huang等人使用基于硅胶的可穿戴被动采样器,在水下封闭环境中捕获DNA和空气中的化学物质。化学和生物暴露组通过LC-HRMS/MS、GC-HRMS以及宏基因组鸟枪法测序进行分析。

我们计算了生物和化学暴露组之间的相关性,以识别微生物与代谢物之间的潜在相互作用。结果显示, Mycolicibacterium doricum与有机酸及其衍生物、有机杂环化合物以及脂质和类似脂质分子超类之间存在显著正相关(R > 0.7 且Adj. p

此外,我们还发现了一些微生物与不同代谢物之间的负相关关系(图6B)。例如,研究表明偶氮弧菌属(Azoarcus)在代谢芳香族化合物方面具有特异性,伊德奥菌属(Ideonella dechloratans)已知能够代谢氯酸盐,而奥托维氏菌属(Ottowia)可以利用苯乙酸作为唯一的氮源来降解苯乙酸。这些特定的代谢活动表明,环境中有机污染物化合物的降解可能是这些负相关的原因之一。此外,某些代谢物的存在可能抑制微生物的生长,例如黄单胞菌属(Xanthomonas campestris)、火山杆菌属(Vulcaniibacterium thermophilum)和酸杆菌属(Acidovorax caeni),进一步加剧了这些负相关的现象。

这些结果突出了iPhylo工具集在揭示人类和环境中微生物组与代谢组之间复杂相互作用方面的能力。

图 6 | 通过 iPhylo Visual 可视化人类微生物组、代谢组和空气暴露组的相关性。

(A) 通过 iPhylo Visual 的 phylo-tree linker 可视化的人类微生物组与代谢组之间的显著相关性。(B) 通过 iPhylo Visual 的 phylo-tree linker 可视化的空气暴露组的生物学与化学成分之间的显著相关性。

案例研究5:用户自定义统计分析方法的树状图

iPhylo工具集兼容任何自定义的分层关系数据库来实现自定义的树状图。例如:统计方法可根据分析目的分为不同的类别,例如假设检验、排序分析、因子分析、聚类分析和相关性分析。为演示其功能,我们选择了生物信息学领域中常用的几种统计方法。这些方法的分层关系以CSV格式组织(补充表2),通过iPhylo CLI处理后生成了一棵统计方法的树状图,并在iPhylo Visual中可视化(图7)。

图 7 | iPhylo 可视化用户自定义树状图。

示例为常用统计方法的树状图。我们使用 iPhylo CLI 模块将这些统计方法的分类组织为分层树结构,并通过 iPhylo Visual 进行展示。树状图的节点标注有标签,标签根据分类等级进行了颜色编码。

讨论与结论

多组学研究的快速发展对全面分析工具提出了更高需求,这些工具需能同时处理生物和化学数据。尽管已有多种生物分类学分析工具问世,但目前尚无一款工具能够完全整合生物和化学分类。此外,其中一些工具需要订阅才能使用,限制了其可访问性。iPhylo工具集旨在解决这些问题,通过提供快速便捷的解决方案,成为构建和注释分类树的综合工具。

iPhylo工具集的开发遵循以下原则:

(1) 跨平台兼容性。iPhylo工具集提供基于网页和命令行的服务,可在Windows、Mac OS和Linux系统上使用。

(2) 一体化。iPhylo无缝整合了分类树的构建、可视化和注释全过程,无需切换平台,从而最大限度地减少潜在错误。

(3) 高度定制化。iPhylo提供广泛的定制选项,扩展至所有分层关系数据库。

为减少用户输入要求,注释采用了数据框格式。此外,用户可以下载和上传树构建会话,还可以访问底层的R绘图代码以便进一步修改。通过iPhylo工具集的整合功能,我们能够将化学分类与生物分类相结合。这种综合方法提供了全面的多组学视角,如案例研究2、3和4所示,揭示了多样微生物的生物合成能力及人类微生物组与代谢组之间的复杂相互作用。这一独特能力是当前其他类似工具所不具备的,为研究微生物-代谢物相互作用及潜在因果关系提供了便利且创新的方法。这种方法在环境与暴露组研究等广泛领域中具有重大潜力。

尽管iPhylo具有多项优势,但也存在一些局限性。目前,iPhylo工具集尚不支持基于序列比对计算的系统发育树,因为这种方法需要输入所有物种的序列比对数据,难以应用于多界分类树。此外,内置的化学数据库专注于功能化合物,仅覆盖了广泛化学物质中的一小部分。这一限制通过iPhylo CLI中在线数据资源的查询功能得以部分缓解,尽管本地内置化学数据库的高速查询优势仍然不可替代。此外,其他数据库(如GTDB数据集)也为未来的扩展提供了机会。

未来,iPhylo工具集的发展规划包括整合更广泛的数据库,涵盖生物和化学领域之外的内容。我们相信,iPhylo工具集将显著促进生物和化学分类分析的广泛应用,并推动其在微生物组、代谢组、精准医学、生态学和环境科学等多领域的整合发展。

参考文献

Li Y, Peng C, Chi F, et al. The iPhylo suite: an interactive platform for building and annotating biological and chemical taxonomic trees. Briefings in Bioinformatics (2024)

作者简介

浙江大学李悦耳,彭晨为本文第一作者,浙江大学蒋超研究员为本文的通讯作者。

李悦耳(第一作者)

李悦耳,浙江大学2022级直博生。主要研究方向为生物信息学,微生物组特征挖掘工具的开发及深度学习在微生物组与精准医学中的应用。以第一作者在Briefings in Bioinformatics期刊上发表论文1篇,作为共同作者参与iMeta,ES&T期刊的论文2篇。

彭晨(第一作者)

彭晨,浙江大学2022级直博生。主要研究方向为微生物生态学和生物信息学,探究塑造微生物多样性模式、分布和动态的机制,开发各类生信分析方法和软件。以第一作者或共同一作在ES&T和Briefings in Bioinformatics期刊上发表论文3篇,作为共同作者参与发表JHM,Frontiers in Chemistry等杂志论文5篇,并参与开发了GRSA,iPhylo,MetaNet等工具。

蒋超(通讯作者)

蒋超博士现任浙江大学生命科学研究院研究员、博导,兼聘浙江大学附属第一医院。中国生物物理学会肠道菌群分会委员及中国环境诱变剂协会-环境流行病学专委会委员。博士后在Stanford University医学院遗传系个体医学中心进行研究,合作导师为精准医学先驱Dr. Michael Snyder。长期致力于环境空气暴露组、人体与环境微生物组、微生物进化、精准医学研究以及相关的分子实验和生信分析方法开发及应用。暴露组学是一门新兴学科,主旨在同一健康的大框架下,解析联系环境、动植物及人类健康的全景环境暴露动态及其效应机制。蒋超博士以一作或通讯在Cell、Nature、Nature Communications、Nature Protocols、Cell Reports、iMeta、ES&T、Journal of Hazardous Materials、Briefings in Bioinformatics、Cell Discovery、mSystems等杂志发表论文。获得国内外专利若干,主持国自然专项、面上等项目。任iMeta、iMetaomics、Scientific Reports副主编、The Innovation Life编委、Phenomics青年编委。

宏基因组推荐

1月10-12日,单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

2月21-23日,家系、肿瘤临床基因组/外显子组数据分析

3月21-23日,高级转录组分析和R语言数据可视化

3月28-30日,第二届全国基因组信息学大会

4月11-13日,微生物组-扩增子16S分析

5月11-13日,微生物组-宏基因组分析

本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。

投稿请联系小编(-genomics)

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP

iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla

iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

来源:微生物组

相关推荐