摘要:2025年 1月24 日,广东省智能科学与技术研究院陈洛南团队在Proceedings of the National Academy of Sciences(PNAS)在线发表了题为Diffusive topology preserving manifold
2025年 1月24 日,广东省智能科学与技术研究院陈洛南团队在Proceedings of the National Academy of Sciences(PNAS)在线发表了题为Diffusive topology preserving manifold distances for single-cell data analysis的研究论文,提出了一种新型流形学习算法: Diffusive Topology Neighbor Embedding (DTNE) ,可实现数据拓扑结构保持的降维和流形表征。该算法基于扩散过程,能够在高噪声数据中精确捕捉细胞间的几何结构和低维流形,为高维数据特别是单细胞数据分析提供了精准的工具。
单细胞测序数据蕴含着丰富的细胞状态和类型信息,但其高维度、噪声干扰以及复杂拓扑结构给数据解析带来了极大挑战。现有分析工具 (如t-SNE、UMAP) 虽在降维和可视化任务中广泛应用,但在捕捉细胞间真实关系以及全局拓扑结构方面仍显不足。针对上述挑战,研究团队开发了DTNE算法,通过引入扩散过程和流形距离的创新思路,实现了对细胞间几何关系的精确建模和数据全局结构的可靠保持。DTNE算法的核心亮点包括:
1)利用局部马尔可夫矩阵模拟数据点间的扩散行为,由局部拓扑逐步揭示数据的全局拓扑;2)基于个性化PageRank算法将数据点相似性转化为稳健的概率分布,平滑了局部噪声的同时又准确捕捉了全局关系。3)借助核方法和对数变换,算法实现了对复杂流形结构的精确建模,构建出高度鲁棒的流形距离矩阵,可实现数据拓扑结构保持的降维和流形表征。基于构建的流形距离矩阵,DTNE可支持高维数据的降维和流形表征、伪时间排序和聚类分析等关键任务。在实际应用中,DTNE算法被成功应用于多个单细胞数据集的分析过程。结果显示与现有主流算法相比,该方法能够更加清晰地揭示细胞间的内在关系,并且在细胞分化轨迹的推断中表现出更高的准确性,在细胞聚类等任务展现出卓越性能。
图 1 DTNE框架:数据拓扑结构保持的降维和流形表征新方法
本研究通过创新的流形学习算法DTNE,表明扩散动力学在挖掘高维数据中的低维流形结构和规律方面具有巨大潜力,可实现数据拓扑结构保持的降维和流形表征,特别对于单细胞测序的高维数据,可揭示被隐藏的生物学规律,为研究人员提供了高维数据真实几何特性的工具。通过引入拓扑结构的精准保持,有望推动新一代数据分析工具的发展。该流形学习框架还可扩展到其他高维数据分析场景,具有较强的通用性。
广东省智能科学与技术研究院博士后魏江勇为本文第一作者,广东省智能科学与技术研究院陈洛南特聘研究员为本文通讯作者,莫纳什大学田天海教授、中山大学周天寿教授以及博士后张滨、王秋也参与了本研究。
论文地址:https://www.pnas.org/doi/10.1073/pnas.2404860121
制版人:十一
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
来源:阿之科技最前线