摘要:纳米孔宏基因组测序技术的快速发展极大地推动了微生物组学的研究进程,使得从复杂微生物群落中构建完整的微生物基因组成为可能,并显著增强了人们对可培养和不可培养微生物的理解。然而,随着纳米孔宏基因组测序技术的广泛应用,测序数据规模迅速增长,现有的生物信息学工具在高效
研究论文
● 期刊:Science Bulletin(IF:18.8)
● DOI:
https://doi.org/10.1016/j.scib.2025.03.044● 原文链接:
https://www.sciencedirect.com/science/article/abs/pii/S209592732500310X?via=ihub
● 第一作者:Kai Peng (彭凯);Yunyun Gao (高云云)
● 发表日期:2025-3-20
● 主要单位:
扬州大学兽医学院、中国农业科学院深圳农业基因组研究所、巴斯大学米尔纳进化中心、香港理工大学食品科学及营养学系摘要Abstract
纳米孔宏基因组测序技术的快速发展极大地推动了微生物组学的研究进程,使得从复杂微生物群落中构建完整的微生物基因组成为可能,并显著增强了人们对可培养和不可培养微生物的理解。然而,随着纳米孔宏基因组测序技术的广泛应用,测序数据规模迅速增长,现有的生物信息学工具在高效挖掘测序数据中的生物学意义方面面临挑战。在本研究中,作者全面的对多种适用于纳米孔宏基因组数据分析的软件进行了性能评测,并开发了一套专门针对纳米孔长读宏基因组数据分析的综合生物信息学分析流程EasyNanoMeta。此外,作者利用模拟数据和实验数据对该流程进行了严格验证,确保其适用于不同类型的纳米孔宏基因组数据分析。所有分析脚本及代码均已在GitHub(https://github.com/P-kai/EasyNanoMeta)上公开,供研究人员进一步探索和使用。
引言Introduction
纳米孔宏基因组测序技术的迅猛发展正在革新微生物组学研究,推动了微生物群落结构、生态动态及基因组功能层面的重大突破。这一创新性测序技术因具备产生超长测序读长的能力,在解析短读长技术难以处理的复杂微生物基因组结构方面具有显著优势。凭借突出的重建高质量宏基因组组装基因组(MAGs)的能力,纳米孔宏基因组测序为深入探索微生物的多样性、功能及其相互作用提供了重要支撑。此外,该技术能够在单个测序读长水平追踪特定基因的宿主来源,这一特性对于研究基因水平转移、基因复杂遗传结构及微生物致病机制尤为关键。然而,随着纳米孔测序技术的发展,所生成的测序数据正在快速增长,而如何高效地从这些测序数据中挖掘有价值的生物学信息,成为当前面临的重大挑战。尽管已有多种生物信息学工具被开发用于应对纳米孔数据在读长分布不均、错误率高等方面的特点,但关于这些工具的集成流程构建与系统性能评估仍相对不足。为应对这一问题,作者系统梳理了当前与纳米孔宏基因组测序相关的研究论文与方法学研究文章,全面整理了其中提及的有关纳米孔宏基因组测序相关的生物信息学工具。在此基础上,作者筛选出当前最主流、使用最广泛的工具进行性能评估,并开发了一套专为纳米孔宏基因组数据设计的分析流程——EasyNanoMeta。
结果Results
纳米孔宏基因组物种分类工具性能评估
在整理与纳米孔宏基因组数据分析相关的工具后,作者发现针对各个分析步骤存在大量功能类似的工具。这种工具的多样性虽为研究提供了丰富选择,但也在实际应用中增加了用户的选择难度,使研究人员难以判断何种工具最适用于特定分析任务。为解决这一问题,作者针对若干关键分析流程开展了系统性的基准评估,包括物种分类注释、组装、纠错以及基因组分箱。首先,为评估数据库类型、参数设置及物种分类软件对物种分类准确性的影响,作者采用了一个包含十种微生物种类的模拟微生物群落——ZymoBIOMICS作为基准测试模型。基于该标准群落,作者使用NanoSim构建了两类合成数据集:一类呈均匀分布(Even),另一类呈对数正态分布(Log)。在工具对比方面,作者使用Centrifuge工具搭配不同数据库(hpvc 和 nt)及不同的“min-hitlen”参数设置,来评估其分类准确性。而 Kraken2 的评估则基于不同的置信度阈值,并使用 k2_strand 数据库。作者使用准确率(Precision)、召回率(Recall)和 F1 分数作为分类性能的评估指标(图1)。在两组模拟数据集(Even 和 Log)上,Centrifuge 在所有指标上的表现均优于Kraken2,显示出其在长读长序列分类中的优越性。此外,在微生物基因组序列的相对丰度估计方面,Centrifuge和 Kraken2在默认参数下均能在属(genus)和种(species)层级上生成较为接近理论值的丰度分布(图1)。综上,作者的评估结果表明,Centrifuge 更适用于纳米孔测序数据的物种分类分析。
图1 | 物种分类工具,数据库以及参数对物种分类准确性的影响(Even模拟数据集)
纳米孔宏基因组组装软件性能测试
随后,作者进一步选取了四个不同类型的数据集,包括模拟数据(Mock1 为对数分布群落,Mock2 为均匀分布群落)、人肠道样本数据(human_C29)、动物肠道样本数据(YZAG19)及环境样本数据(STL_AS),分别采用多种方法进行了宏基因组组装、纠错与分箱分析,以建立与组装分析相关的纳米孔宏基因组分析基准(图2)。需要指出的是,所有测试数据均经过质量控制及宿主序列去除后再进行分析。此外,作者还系统评估了各类工具在计算资源消耗方面的差异,为实现高效且资源友好的宏基因组数据处理提供参考。在纳米孔长读序列组装方面,作者的结果显示,MetaFlye在生成更完整的组装结果和更长的 contig(拼接重叠群)方面表现尤为出色,是进行纳米孔长读宏基因组组装分析的首选工具。相比之下,诸如 wtdbg2 和 Canu 等工具,尽管在某些特定数据集下也具有优势,但其适用性更依赖于数据本身的特征。此外,MetaFlye在执行效率与组装质量之间实现了最佳平衡,使其在面向大规模长读长宏基因组研究时,表现出更高的实用性与可操作性。为进一步提高宏基因组组装的准确性,通常会采用短读长数据对由长读数据生成的初始组装结果进行纠错。NextPolish和 Pilon是目前常用的两种纠错工具。对比显示,NextPolish仅需约1小时即可完成组装结果纠错,而Pilon则需超过12小时才能达到类似的纠错效果。如此显著的运行时间差异突显了 NextPolish的高效计算效率,使其成为大规模宏基因组数据分析中更具优势的选择。
混合策略为构建高准确度的宏基因组组装提供了另外一种有效路径。在本研究中,作者评估了三种常用的混合组装工具——MetaSPAdes、OPERA-MS 和 MetaPlatanus,比较它们在不同类型数据集上的组装性能。这三种工具在短读长组装阶段采用了不同的工具:MetaSPAdes使用SPAdes,MetaPlatanus使用 MEGAHIT,而OPERA-MS可灵活搭配SPAdes或MEGAHIT。因此,作者为每个数据集构建了四种不同的混合组装策略,以系统评估不同组合的性能表现。分析结果表明,短读长组装工具的选择与最终混合组装的contig数量和总组装大小密切相关。具体而言,以SPAdes为预组装软件的混合组装策略相较于基于MEGAHIT的混合组装策略,能够生成显著更大的宏基因组组装,这一优势在环境类数据集中尤为明显。这一结果说明,在混合组装框架中,SPAdes更有利于构建更大且更完整的组装结果。在结合长读数据进行优化的情形下,采用SPAdes的 OPERA-MS(即OPERA-MS_SPAdes)相比MetaSPAdes可生成更多长contigs,体现出其在提升组装连续性方面的显著优势。同时,MetaPlatanus所生成的contig长度也优于OPERA-MS_MEGAHIT。除了组装质量的差异外,作者还观察到这几种混合组装工具在计算资源消耗方面存在显著差异。其中,OPERA-MS_SPAdes不仅能输出高质量组装结果,还具备更高的计算效率,在内存使用与运行时间方面均优于其他工具。在大规模宏基因组研究中,计算资源常常是制约性因素,因此这一优势使其在实际应用中更具可行性和推广价值。
图2 | 宏基因组组装和分箱工具的性能及计算资源消耗评估
纳米孔宏基因组分箱工具性能评估
宏基因组分箱(metagenomic binning)在解析复杂微生物群落中具有关键意义,可用于从复杂微生物群体中分离并重建单一微生物基因组。为进一步评估不同组装策略(长读组装与混合组装)对分箱结果的影响,作者采用多种主流分箱工具,对多个数据集进行了宏基因组分箱分析(图2 ghi)。在长读组装结果方面,作者选用了来自人和动物肠道样本的两个高质量宏基因组组装结果,测试了两种常用分箱工具——vamb和SemiBin的性能,以比较它们在重建MAGs方面的性能表现。结果显示,SemiBin相较于vamb能够重建出更多的高质量和中等质量MAGs。随后,作者进一步从多个指标维度对MAG的质量进行了系统评估,包括N50、平均contig长度、最大contig长度以及contig数量。评估结果表明:MAGs的组装连续性更多取决于前期的组装方法,而非后期的分箱策略。例如,从NextDenovo组装结果中重建的MAGs通常具有更少的contigs数量和更长的contig长度,表明其组装更为连续。然而,尽管NextDenovo与SemiBin的组合能够生成较长的contigs,却也伴随着许多MAGs的丢失。相较之下,MetaFlye与SemiBin的组合不仅能重建出数量更多的MAGs,同时也具有更高的质量。
在混合组装策略中,可选的宏基因组分箱工具更加多样,主要包括:CONCOCT、MaxBin2、MetaBat2、SemiBin以及vamb。作者使用三个不同类型的数据集对这些分箱工具的性能进行了系统评估。与长读组装及分箱的评估结果一致,作者发现bins的提取数量主要受到分箱工具本身的影响,而非混合组装方法的影响。在三个测试数据集中,MetaBat2和SemiBin均稳定提取出更多高质量的bins,其性能优于CONCOCT、MaxBin2和vamb。此外,混合组装策略本身的差异也会对分箱效果产生一定影响:基于SPAdes的混合组装通常生成更多的bins,相较于以MEGAHIT为基础的组装策略具有更高的bins丰富度。进一步分析显示,基于OPERA-MS的组装在bins质量方面优于其他两种混合组装工具。尤其是将OPERA-MS与MetaBat2组合使用时,所提取的bins具有更长的contig N50和更大的平均contig长度,展现出良好的连续性和完整性。因此,在计算资源充足的条件下,建议优先采用OPERA-MS_SPAdes联合MetaBat2的策略以获得更高质量的混合组装与分箱结果。作为资源优化的替代方案,OPERA-MS_MEGAHIT与MetaBat2的组合在略微牺牲部分优秀结果的前提下,提供了更快的处理速度与更高的计算效率,适用于对资源稀缺的大规模宏基因组研究项目。
测序深度对组装和分箱结果的影响
测序深度对宏基因组的组装与分箱结果具有显著影响。为探究测序深度对分析效果的具体影响,作者以动物肠道数据集(YZAG19)为测试数据,构建了不同深度的数据子集,包括1/4、1/2、3/4及完整数据集,并分别进行宏基因组的组装与分箱分析。结果显示,随着测序深度的增加,所生成的contig数量以及总组装大小同步增长。然而值得注意的是,最长contig与contig N50均呈现出先上升后下降的趋势,说明虽然增加测序深度在初期有助于提升组装质量,但一旦超过某一临界点,进一步增加数据量反而无法继续改善组装效果。进一步分析不同测序深度下提取的高质量MAGs数量,也未观察到随着测序深度增加而持续上升的趋势。这一发现与上述组装结果相吻合:当测序深度达到一定程度后,继续加深测序并未显著提升高质量MAGs的提取数量。因此,本研究结果提示,盲目增加宏基因组的测序深度并不总是有益的,不仅不能显著提升微生物资源的获取效率,反而会带来更高的测序成本与计算负担,应根据实际需求合理设计测序策略。
组装和分箱策略对MAGs准确性的影响
近年来,随着纳米孔长读长宏基因组技术的广泛应用,研究人员已构建出越来越多的MAGs。尽管对这些MAGs的完整性与污染率的评估已成为常规操作,然而,关于其平均核苷酸一致性(ANI)的系统评估仍相对较少受到关注。在本研究中,作者使用包含八种细菌基因组的两个模拟数据集(Mock1和Mock2),评估了不同组装策略对MAG的ANI的影响。作者分别对这两个模拟数据集进行了长读组装与混合组装,随后对长读组装结果进行了两种纠错处理,一种为仅使用长读数据进行纠错,另一种为联合使用长读与短读数据进行纠错。之后,作者利用SemiBin对组装生成的contigs进行分箱,最终每个数据集均生成了四组MAGs。由于Mock1数据集中细菌基因组的丰度分布呈指数型,导致大部分基因组难以有效重建,因此作者选用Mock2数据集作为ANI评估的主要依据(图3)。为评估MAGs的基因组重建准确性,作者使用Mummer软件中的dnadiff工具,将重建结果与参考基因组进行比对。尽管仍有部分由wtdbg2与SemiBin所重建的MAGs的大小明显偏大,但是大多数MAGs与参考基因组在整体大小上的差异控制在500 kbp以内。在使用长读与短读数据联合纠错后,从长读组装结果中获得的MAGs显示出最高的ANI值。此外,通过统计MAGs中的断点数量,作者发现长读组装策略相比混合组装,能够生成更完整、结构更连续的MAGs。
基因预测准确性在MAGs功能注释与生物学意义中至关重要。为比较不同组装策略对基因预测的影响,作者对四组MAGs及其对应的参考基因组使用Prodigal进行了基因注释分析。结果表明,未纠错的长读组装MAGs存在大量错误的基因预测。尽管使用长读数据纠错可在一定程度上改善基因预测结果,但预测准确性仍明显低于参考基因组。相比之下,在联合使用短读与长读数据进行纠错后,单碱基错误被显著修正,基因预测的准确性得到大幅提升。此外,尽管混合组装本身也能生成准确性较高的contigs用于基因预测,但其准确性仍略逊于充分纠错的长读组装结果。综上所述,尽管基于长读的宏基因组组装可获得具有较高完整性与低污染率的MAGs,但若未经过进一步纠错,这些MAGs并不适用于高准确的基因功能注释。因此,为确保MAGs的基因预测结果具备可靠性,必须借助高准确性的短读数据对其进行纠错处理。
图3 | 组装、分箱和纠错策略对MAGs准确性的影响
EasyNanoMeta的开发与测试
在完成基准测试分析后,作者开发了一个集成化、用户友好的纳米孔宏基因组分析流程——EasyNanoMeta(https://github.com/P-kai/EasyNanoMeta),以简化和规范纳米孔宏基因组数据的分析过程。EasyNanoMeta具有良好的模块化设计与操作便捷性,支持多种分析任务,包括物种分类注释、功能分析、宏基因组组装、纠错和分箱等(图4)。该流程延续了作者此前开发的EasyAmplicon工具的设计理念,提供两个主要脚本,分别用于工具的安装和完整数据分析流程的执行,并配套详尽的使用文档和示例数据集,便于用户快速上手。此外,EasyNanoMeta采用了基于Singularity的容器化策略(EasyNanoMeta.sif),以确保结果的可重复性及分析软件对多种计算环境的良好兼容性。这种容器化部署不仅简化了环境配置流程,也有效规避了软件依赖冲突问题,使分析流程可在多种计算平台上稳定运行。为提升数据处理的灵活性,EasyNanoMeta提供了两个分析脚本:easynanometa.py:用于执行完整的自动化数据分析流程;easynanometa2.py:支持在容器中单独调用任意分析模块,便于个性化操作。更重要的是,该流程被设计为可持续迭代升级,将持续关注纳米孔宏基因组测序领域的技术进展,动态更新分析组件,并淘汰不再适用的旧工具,确保其长期保持前沿性与高效性。此外,作者在多个类型的数据集上对EasyNanoMeta的通用性与稳定性进行了测试。主要分析策略被分为:无组装分析策略和基于组装的分析策略(图4)。在无组装分析策略中,作者提供了多种方法用于生成物种分类特征表和功能特征表,并进一步支持群落组成、多样性分析、功能富集与相关性分析等统计方法,适用于对复杂临床样本或环境样本中微生物群落与功能基因的快速分析。在基于组装的分析策略中,作者采用了不同类型的数据集,系统评估了多种组装、纠错与分箱工具的性能表现,并根据性能与计算资源消耗的权衡,推荐了适用于不同应用场景的分析方法。该策略通过重建完整微生物基因组,为后续深入的基因功能注释与物种分类研究提供了更全面的视角。此外,作者进一步展示了结合使用EasyNanoMeta.sif容器与easynanometa.py脚本,即便在如人类痰液这类高宿主污染背景下,也可实现高效、一键式的宏基因组分析(数据示例:https://figshare.com/articles/dataset/EasyNanoMeta_outputs_/27019807?file=50626287)。值得注意的是,为进一步验证EasyNanoMeta在更广泛样本类型中的适用性,仍需在微生物丰度低、宿主污染高的样本中进行更多实证测试。
图4 | EasyNanoMeta分析流程概览
总结
综上所述,作者对当前主流的纳米孔宏基因组分析工具进行了基准测试分析,并开发了一个全面的分析流程EasyNanoMeta,为执行相关分析策略提供了实用建议。此外,作者还根据工具的性能与计算效率,提出了分析方法与工具选择的建议。然而,作者也必须认识到,纳米孔测序技术正迅速发展,尤其是在准确性方面的不断提升,随着测序技术的不断进步,现有的分析工具与流程将不可避免地被更新或替代。此外,除了评估当前生物信息学工具的性能外,还必须考虑其对计算资源的需求,以便有效应对大规模纳米孔宏基因组数据的分析任务。同时,未来需要开发更加高效的生物信息学工具与高级算法,以满足日益增长的纳米孔宏基因组数据处理需求。
参考文献
Peng Kai, Gao Yunyun, Li Changan, Wang Qiaojun, Yin Yi, Hameed Fazal Muhammad, Feil Edward, Chen Sheng, Wang Ziqiang, Liu Yong-Xin, Li Ruichao. (2025). Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics. Science Bulletin, https://doi.org/10.1016/j.scib.2025.03.044.
作者简介
第一作者简介
彭凯
彭凯,扬州大学兽医学院师资博士后,主要研究方向为细菌耐药性产生及传播机制、细菌基因组学、动物肠道宏基因组学等。目前以第一作者(或共一)在iMeta,Science Bulletin,mSystems, Journal of Infection等期刊发表论文16篇。
高云云
高云云,北京林业大学讲师、中国农业科学院深圳农业基因组研究所刘永鑫组博士后。目前研究方向为宏基因组方法开发,相关成果已发表于iMeta、Science Bulletin、Protein & Cell、GigaScience等期刊。
通讯作者简介
王志强
王志强,教授、博士生导师,扬州大学兽医学院院长。兼任中国兽药典委员、农业农村部兽药咨询专家、农业农村部全国饲料评审委员会委员、中国畜牧兽医学会兽医药理与毒理学分会常务理事、江苏省毒理学会副理事长、江苏省兽药协会副理事长、江苏省高校“青蓝工程”优秀青年骨干教师、江苏省“六大人才高峰”培养对象。主要从事畜禽重要病原菌耐药性传播机制及防控技术研究。先后主持国家自然科学基金面上项目、国家重点研发计划子课题等国家级、省部级科研项目30余项。曾获国家级教学成果奖二等奖、江苏省高等教育教学成果特等奖。近年来以第一作者或通讯作者在国内外学术期刊Nature Microbiology,Nature Communications,Cell Reports等发表研究论文120余篇。
刘永鑫
刘永鑫,中国农科院基因组所食品中心研究员,微生物组与营养健康团队首席,iMeta执行主编,宏基因组公众号创始人。聚焦微生物组方法开发、功能挖掘和科学传播,在Nature Biotechnology、Nature Microbiology等发表论文80篇,被引24000+次,连续入选全球前2%顶尖科学家。兼任中国微生物组、计算合成生物学专委会委员。创办17万+同行关注的宏基因组公众号,主编《微生物组实验手册》专著,发起iMeta 期刊(IF 23.8),位列微生物学研究类全球第一。兼职为Cell Host & Microbe、NC、NAR、Microbiome等期刊审稿300余次。
李瑞超
李瑞超,扬州大学兽医学院教授,博士研究生导师,江苏省杰青。目前主持包括国家自然科学基金面上项目等科研项目,入选人力资源与社会保障部2019年“高层次留学人才回国资助项目”(全国30个名额)人选。研究方向主要为兽医药理学和生物信息学,聚焦细菌耐药性和新型测序技术应用开发。近五年,已在本学科国际知名期刊(包括ISME Journal,Science Bulletin,Genome Medicine,Drug Resistance Updates,Journal of Infection等)发表SCI论文多篇,一篇论文入选ESI高被引论文,总引用4300余次(Google Scholar);相关研究成果受到中国科学报等媒体报道。
宏基因组推荐
1月10-12日,单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源
2月21-23日,家系、肿瘤临床基因组/外显子组数据分析
3月21-23日,高级转录组分析和R语言数据可视化
3月28-30日,第二届全国基因组信息学大会
4月11-13日,微生物组-扩增子16S分析
5月11-13日,微生物组-宏基因组分析
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。
投稿请联系小编(-genomics)
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,已有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
来源:微生物组