nature子刊|朱正江研究员团队新成果:MetDNA3-以知识与数据双层代谢网络驱动破解非靶标代谢组学注释难题

360影视 动漫周边 2025-09-08 15:28 1

摘要:近日,中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江研究员团队在nature communications上发表题为"Knowledge and data-driven two-layer networking for accurate metabo

英文标题: Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics

中文标题: 知识与数据双层网络驱动的非靶标代谢组精准注释

发表期刊: nature communications

影响因子: 15.7

文章简介

近日,中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江研究员团队在 nature communications 上发表题为"Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics"的研究论文。本研究开发了新一代代谢组学规模化注释技术MetDNA3,通过构建知识与数据双层代谢网络的交互驱动算法,显著提升了非靶标代谢组学中代谢物注释的效率、覆盖度与准确度,实现从已知代谢物鉴定未知代谢物的能力。该技术还发现并验证了 两种未收录于人类代谢组数据库的新代谢物 ,为代谢组学研究及相关生命科学与医学应用提供了有力的技术支撑。

扫码立即沟通

获取原文+研究思路

识别

研究背景

非靶标代谢组学旨在全面分析生物系统内源性代谢物,为细胞代谢研究、疾病机制解析及生物标志物发现提供关键支撑,是当前生命科学领域的重要研究方向之一。过去二十年,基于液相色谱-质谱(LC-MS)的非靶标代谢组学技术在数据采集与处理环节取得显著进展,大幅提升了代谢物检测的灵敏度与覆盖范围。然而,代谢物注释仍是该领域的核心挑战,其主要瓶颈在于代谢物具有庞大的化学多样性与复杂的结构特性,导致大量检测到的代谢物难以被有效识别。

目前,基于标准质谱图库的谱图匹配是代谢物注释的金标准,但其仅适用于有已知参考质谱图的代谢物,无法覆盖未知或缺乏标准品的代谢物;为解决这一问题,基于代谢网络的策略逐渐成为重要补充手段,可分为数据驱动与知识驱动两类,但二者均存在明显局限:数据驱动网络以实验质谱数据为节点、数据间关系(如MS2谱图相似性、丰度相关性)为边,需通过无监督建模挖掘特征关联,但因LC-MS数据的复杂性易形成结构庞大且复杂的网络,需依赖高级工具解读;知识驱动网络以代谢物为节点、生化关系(如代谢反应、结构相似性)为边,通过监督建模整合已知生化知识实现注释,但其效果受限于代谢物数据库的覆盖度,现有数据库往往缺乏全面的反应关系,导致网络结构稀疏、拓扑连接性低,无法对数据库未收录的代谢物进行注释,严重限制了注释覆盖范围与新代谢物发现效率。

在此背景下,如何整合数据驱动与知识驱动网络的优势,解决二者拓扑差异、整合后网络结构复杂及缺乏有效跨网络交互算法等问题,成为提升 非靶标代谢组学 中代谢物注释效率、覆盖度与准确性的关键突破口。

研究结果

1、知识驱动网络的代谢反应网络构建

本研究聚焦于非靶标代谢组学中代谢物注释难题,旨在解决现有代谢物知识数据库(如KEGG、MetaCyc、HMDB)存在的关键局限。这些数据库普遍缺乏全面的代谢反应关系,致使构建的网络结构稀疏,拓扑连接性欠佳,严重制约了知识驱动网络在代谢物注释方面的效能。为攻克这一难关,研究团队精心设计并实施了一系列创新策略,全力构建一个全面且高效的代谢反应网络(MRN)。

团队采用“数据库整合、网络重构、网络扩展”的一体化方案(图1a),先是从各大数据库中精心提取具有或不具有已知反应关系的代谢物反应对(RPs),以此作为关键数据,训练基于图神经网络(GNN)的先进模型,该模型能够精准预测数据库内任意两种代谢物间潜在的反应关系(图1b-c)。为有效把控预测过程中可能出现的假阳性问题,在正式预测前,团队运用了严谨的两步预筛选策略。不仅如此,为进一步扩大代谢物覆盖范围,团队借助BioTransformer工具生成未知代谢物,并通过结构相似性分析验证预测代谢物反应对的可靠性,结果显示其Tanimoto系数分布与已知反应关系高度契合(图1d-e)。最终构建完成的MRN优势显著,涵盖765,755种代谢物与2,437,884个潜在代谢物反应对,覆盖度远超原有数据库(图1f-g)。从拓扑结构来看,MRN全局聚类系数更高,度分布也更为理想(图1h-i),如度为10的节点数,在MRN中可达5892个,而基于原有知识数据库构建的网络仅39个,这充分彰显了新构建MRN在代谢物覆盖与拓扑连接性上的卓越提升,为后续知识驱动型代谢物注释工作筑牢了根基。

图1. 综合代谢反应网络(MRN)的构建

2、用于递归式代谢物注释的双层交互式网络拓扑结构

为解决数据驱动与知识驱动网络结合用于代谢物注释的难题,本研究首次发展了知识与数据双层代谢网络的交互驱动算法,分别通过数据和知识双网络数据预映射,及双层网络交互驱动的代谢物传播式迭代注释,显著提升了非靶标代谢组学中代谢物注释的效率、覆盖度与准确度(图2a-b)。该流程已集成至MetDNA3。

第一步:数据与知识双网络数据预映射构建双层网络拓扑(图2a)。

按“MS1 m/z 匹配→反应关系映射→MS2相似性约束” 顺序,将实验数据预映射到知识型代谢反应网络(MRN),形成“MRN为知识层、实验特征为数据层”的结构:先通过MS1 m/z匹配筛选与实验数据相关的代谢物,生成MS1约束MRN以减少冗余;再映射反应关系构建特征网络,经MS2相似性约束优化后反向映射得到数据约束MRN;最终建立层内优化链接与层间“代谢物-特征”关系,确保拓扑一致。以NIST人尿数据集为例,MRN代谢物从765,755个降至2993个,反应对从2,437,884个降至55,674个,验证了该方法优化大规模网络的有效性(图2c-d)。

第二步:双层网络交互驱动的代谢物传播式迭代注释(图2b)。

先将实验特征与标准库匹配,注释为种子代谢物并形成“代谢物-特征”对输入双层网络;首轮从知识层搜索种子代谢物的反应相邻代谢物,从数据层搜索种子特征的MS2相似相邻特征,保留有预映射跨层链接的作为新注释;新注释作为新种子迭代该流程,直至无新链接,以最大化注释覆盖度。

该拓扑结构可大幅提升计算效率:仅需搜索相邻节点与验证跨层链接,省去冗余计算。对比MetDNA2,MetDNA3的相邻代谢物搜索量与MS2相似性计算量显著减少(图2e-f);在3种生物样本的12个数据集中,MetDNA3将单数据集平均计算时间从1082分钟缩短至77分钟,效率提升超14倍(图2g)。

图2. 基于知识与数据双层代谢网络驱动的代谢组规模化精准注释技术

3、MetDNA3代谢物注释性能的提升

本研究将知识与数据双层代谢网络驱动的代谢组规模化精准注释技术集成至MetDNA3,显著提升非靶标代谢组学代谢物注释的覆盖度与正确率。

实验以BV2细胞、小鼠脑/肝组织、NIST人血浆/尿样为样本,每种样本通过2种LC柱和2种MS极性获取4个数据集(图3a),并测试Orbitrap与Astral两种仪器。结果显示,MetDNA3共注释1652种独特Level 1代谢物(单样本平均注释600-1000种,图3b);经网络注释传播后,累计注释12508种Level 3代谢物(其中包含3098种未知代谢物,图3c),且Astral仪器的注释效果优于Orbitrap(图3b-c)。

通过两种方式验证MetDNA3的注释性能:一是基于20个Orbitrap数据集的实际样本验证(图3a-c),二是通过10折交叉验证的算法稳定性验证(图3d)。结果表明,相较于MetDNA2,MetDNA3的验证代谢物注释覆盖度从39.9%提升至68.1%(图3e),Top3注释正确率从65.6%提升至84.4%(图3f);在N=1、3、10时,Top N注释正确率分别达到68.0%、84.4%、91.0%(图3g),且Top3注释的FDR为15.6%。

MetDNA3注释性能的提升,核心源于代谢反应网络(MRN)中经图神经网络(GNN)预测的反应关系增强了网络拓扑连接性(图1i):在NIST人尿样数据中,GNN预测的反应对占注释传播总量的68.0%,且其结构相似性与已知反应对相当;同时,83.9%的注释传播发生在同一结构超类的代谢物之间,这一结果证实代谢物注释过程由代谢物的结构特征与化学相似性驱动。

图3. 代谢物注释覆盖度与正确率的提升

4、基于网络的代谢物注释验证

本研究从“多工具验证”和“化学标准品验证”两方面,验证MetDNA3中基于网络的代谢物注释可靠性,并发现新代谢物。

针对MetDNA3多数Level 3注释缺乏化学标准品的问题,研究用CFM-ID、MetFrag、MS-FINDER、SIRIUS四种非网络依赖工具,分析20个Orbitrap数据集中4302个Level 3注释特征(图4a-b)。结果显示,单个工具与MetDNA3注释一致性达60%-80%(图4b),90.1%(3894个)特征获至少一种工具支持,39.1%(1680个)获四种工具一致支持,仅9.9%(428个)无工具验证(图4c),证实多数注释可信。

同时,研究用化学标准品验证部分注释(图4d-g):通过“整合多工具验证结果+检查数据集重现性”的逐步过滤策略筛选候选,发现两种人类代谢组数据库未收录的代谢物。一是小鼠肝/脑组织中的γ-谷氨酰 - 苏氨酰甘氨酸(γ-Glu-Thr-Gly),经双层网络传播(知识层与γ-Glu-Thr配对、数据层M249T416与 M306T438配对)形成新注释对,合成标准品匹配验证其准确性(图4d-e);二是小鼠脑/肝组织中的N-羟乙酰牛磺酸,类似传播形成注释对,合成标准品亦验证成功(图4f-g)。截至2025年3月,二者未见于KEGG、HMDB等数据库,证明基于网络的注释可助力代谢组“暗物质”发现,此外还有其他类似已知代谢物案例经标准品验证。

图4. 基于网络的代谢物注释验证

5、不同知识驱动型网络拓扑结构的基准测试

为明确网络拓扑属性对代谢物注释的影响并验证本研究构建的MRN优势,研究将MRN与结构相似性分子网络(SMN)、全连接网络(FCN)进行对比。三者共享含53,583种代谢物的数据库,其中SMN依据代谢物的结构相似性建立关联,FCN则为所有代谢物相互建立连接;三者的网络连接性与密度呈现“FCN最高、SMN次之、MRN最低”的规律。研究将这三种网络均整合进MetDNA3,应用于20个Orbitrap数据集开展测试(图5a)。

性能评估结果显示:MRN的注释传播特异性最高(80.8%),SMN(62.6%)、FCN(24.9%)的特异性依次降低(图5b),这一结果证明过高的网络密度与无差别的连接会削弱注释传播的特异性。为进一步验证,研究通过随机生成实验MS2谱图的诱饵谱图(decoy)作为阴性对照进行评估,发现MRN在Top3注释中的准确率达73.3%、FDR为15.8%(图5d-e);而随着网络连接性增强(从MRN到SMN再到FCN),注释准确率降至58.3%、FDR升至44.5%(图5d-e),且FCN的注释性能接近“仅通过m/z+RT匹配”的效果,表明其注释结果更多依赖m/z与保留时间的匹配,而非网络传播的作用。此外,MRN的真阳性率(TPR)与假阳性率(FPR)均低于SMN和FCN(图5f)。

图5. 不同知识驱动型网络拓扑结构的基准测试

研究结论

本研究针对非靶标代谢组学代谢物注释难题,开发双层交互式网络拓扑结构并集成于MetDNA3:构建高特异性代谢反应网络(MRN)解决传统网络稀疏问题,通过“预映射建网-递归传播注释”流程,较MetDNA2将计算效率提升超14倍;在多样本中注释1652种Level 1、12508种Level 3代谢物(含3098种未知),Top3注释正确率84.4%、FDR 15.6%,还发现2种未收录新代谢物;对比证实MRN高特异性优势,为代谢组“暗物质”表征提供高效可靠方案。

来源:云阳好先生做实事

相关推荐