摘要:非靶向代谢组学在推进精准医学和生物标志物发现方面前景广阔。由于谱图参比库的不完整,从串联质谱中鉴定化合物在当前仍是一项颇有挑战的任务。
编辑丨&
非靶向代谢组学在推进精准医学和生物标志物发现方面前景广阔。由于谱图参比库的不完整,从串联质谱中鉴定化合物在当前仍是一项颇有挑战的任务。
为了应对这项挑战,德国联邦材料研究与测试研究所(BAM)与柏林自由大学的一支团队提出了 FIORA,这是一种旨在模拟串联质谱的开源图神经网络。利用键的分子邻域,该模型可以学习断裂模式并推导出碎离子概率。
FIORA 不仅在预测质量上超越了最先进的碎裂算法 ICEBERG 和 CFM-ID,而且还有助于预测其他特征,例如保留时间和碰撞截面。利用 GPU 加速,FIORA 能够快速验证推定的化合物注释,并通过高质量预测大规模扩展光谱参考库。
这项研究以「FIORA: Local neighborhood-based prediction of compoundmass spectra from single fragmentation events」为题,于 2025 年 3 月 7 日刊登于《Nature Communications》。
FIORA
在过去的十多年中,非靶向代谢组学的进展受到高质量参考光谱稀缺的限制。2016 年的 CASMI 挑战赛显示,在注释以前未知化合物的谱图时,计算机模拟方法的召回率仅为 34%;2022 年的挑战赛中,识别率甚至没有达到 30%。
许多小队尝试从分子结构构建理论产物离子谱作为参考,以此来扩展公共光谱库。由于缺少高质量的训练数据,必须要对算法进行彻底评估,以确定它们对以前未参考或未见过的代谢物的有效性。
键解离是化合物碎裂背后的一个关键概念,因为共价键在 MS/MS 过程中被裂解,产生出现在质谱中的碎离子。计算机碎裂算法识别分子结构中的断点,并使用这些断点来估算离子概率和峰强度,最后输出模拟质谱。
图 1:实验性 MS/MS 碎裂与计算机碎裂工作流程的比较示意图。(图源:论文)
FIORA 的与众不同之处在于致力于通过其局部分子邻域表达每个键裂解。这与许多最新算法中根据分子的汇总表示预测 MS/MS 谱图或完整片段集的典型方法不同。它能根据其周围的分子结构独立评估键解离事件,更直接地模拟 MS 的物理碎裂过程,其将碎片离子预测正式化为分子结构图中的边缘级预测任务。
该模型充分利用了高性能 GPU,并在其决策过程中非常强调可解释性。它可估计保留时间(RT)和碰撞截面(CCS),这为基于 MS 的化合物鉴定增加了更多维度,是光谱预测软件的真正原创补充。
与性能最好的方法 CFM-ID 和 ICEBERG 对性能进行基准测试,FIORA 学习碎裂模式相对独立于训练集和未知化合物之间的结构相似性。这确保了对真正未知结构进行建模的高度泛化性,并为光谱特征预测奠定了基础。
团队承诺,FIORA 完全开源,其可以在 GitHub 上免费获得。
相关链接:
方法概述
FIORA 的核心思想是通过预测串联 MS 碎裂过程中发生的分子键断裂来间接预测质谱。团队采用 GNN 来学习分子的隐藏表示,并将键断裂作为边缘性质预测任务。模型考虑了每个键的局部邻域,从而利用了与破译碎裂事件和离子重排相关的接近完整的化学表示。
随后,FIORA 将 MS/MS 信号建模为单键解离后预测片段产物的概率分布。通过神经网络子模块学习 RT 和 CCS 值,使用分子图嵌入,FIORA 提供了多个 MS/MS 特征维度来匹配实验数据,可用于改进化合物鉴定。
FIORA 不局限于单一模型架构,展现了多功能性。其模块化设计允许多个预测目标和轻松集成不同的深度学习架构。
对于测试拆分、MSnLib 和 CASMI 16 数据集,FIORA 预测的 MS/MS 谱图与参考测试谱图的中位余弦相似度最高,比第二名高出 10% 至 49%。这可能与图卷积网络(GCN)和关系图卷积网络(RGCN)的性能优于基于注意力的网络有关。
图 2:各种 GNN 架构的光谱预测性能。(图源:论文)
演示与测试
对于与训练集具有中到高度结构相似性的化合物(Tanimoto 评分在 0.6 到 1 之间),FIORA 的预测质量保持稳定,中位余弦相似度为 0.8 及以上。当这个评分位于 0.2-0.3 时, FIORA 在推广到不熟悉的结构时性能仍然稳健。
图 3:测试化合物与训练化合物的结构相似性区间的余弦相似性。(图源:论文)
FIORA 可以很好地推广到结构上不同的化合物,但 FIORA 相比于 ICEBERG 的改善不太明显。在不同化合物类别的预测中,FIORA 的预测质量更加稳定。
图 4:FIORA 预测的 RT 和 CCS 奇偶校验图。(图源:论文)
作为验证手段,研究团队将 FIORA 与基于前驱体 m/z 的线性回归模型进行了比较。结果显示FIORA 的性能始终优于线性模型,尽管差距很小。绝大多数预测的误差范围在 10% 之间。
虽然目前的实施无疑受到有限碎片离子集的限制,但 FIORA 能够通过高度准确的强度预测进行有效补偿。尽管存在单步碎裂,但 FIORA 的性能仍优于最先进的方法。
团队已经证明,他们的方法不会导致化合物超类之间或结构不同的化合物之间的重大性能差异。需要注意的是,单步碎裂会抑制 FIORA 检测某些化合物的效果,这是未来改进的重要方向。
强大的预测性能
FIORA,一种创新的碎片化算法,它以多种关键方式推动了该领域的发展。通过基于局部分子邻域对键解离进行建模,片段强度预测得到了显著改善。
FIORA 还在片段强度预测水平上整合了协变量,包括电离模式、仪器类型、分子量和碰撞能量,特别是碰撞能量对峰强度的显著影响。
将正谱和负谱的训练合并到一个模型中,使算法能够从其他电离类型的碎裂模式中学习。基于这种嵌入,分子可以在化合物类和超类水平上聚集。
话虽如此,没有一种算法在各个方面都客观上优于其他算法。FIORA 覆盖的碎片集较小,呈现效果较差,但在其他方面仍代表了强度预测质量和分子结构建模方面的当前技术水平。
论文链接:
来源:小岳科技每日一讲