诺华重磅：深度学习破解转录组学密码，重塑癌症研究格局

摘要：细胞系和源自患者的异种移植物对癌症研究至关重要；然而，从这些模型中得出的结果往往缺乏临床转化性，因为它们不能完全再现复杂的癌症生物学特性。在这项研究中，团队开发了MOBER（多源批量效应去除法），在去除混杂因素信息的同时提取有生物意义的嵌入。

【导读】细胞系和源自患者的异种移植物对癌症研究至关重要；然而，从这些模型中得出的结果往往缺乏临床转化性，因为它们不能完全再现复杂的癌症生物学特性。在这项研究中，团队开发了MOBER（多源批量效应去除法），在去除混杂因素信息的同时提取有生物意义的嵌入。

2025年1月17日，诺华生物医学研究所Eric Y. Durand教授团队在期刊《Science Advances》上发表了题为“Biologically relevant integration of transcriptomics profiles from cancer cell lines, patient-derived xenografts, and clinical tumors using deep learning”的研究论文。研究结果表明，MOBER可将临床前模型的转录谱转化为类似于临床肿瘤的转录谱，因此可用于改善临床前模型所获见解的临床转化。MOBER是一种多功能批量效应去除方法，适用于各种转录组数据集，可同时整合多个数据集。

https://www.science.org/doi/10.1126/sciadv.adn5596#tab-contributors

深度学习与肿瘤异种移植模型

癌症细胞系和源自患者的肿瘤异种移植（PTX）模型在临床前癌症研究和药物发现中继续发挥着至关重要的作用。然而，临床前癌症研究的许多发现无法在临床试验中重现，与其他疾病领域的化合物相比，肿瘤药物的失败率最高。缺乏可转化性的主要原因之一是癌症模型并不完美，而且由于其传播和生长条件的差异，它们随着时间的推移而发生了改变，人们并不知道它们在多大程度上代表了其所衍生的肿瘤的生物学特性。此外，许多癌症模型缺乏准确的临床注释和组织病理学分类，而这对它们在癌症研究中的应用至关重要。

近年来，大量研究将深度学习技术用于转录组学数据分析。特别是在单细胞RNA-seq数据方面，已经提出了不同的基于自动编码器的架构，并成功地用于数据协调和减轻混杂的技术效应。受这些成果的启发，团队应用深度学习技术来探索作为患者肿瘤代表的临床前模型的保真度。

在这项研究中，团队开发了一种基于深度学习的方法--MOBER（Multi-Origin Batch Effect Remover，多源批量效应去除器），它能同时对来自癌症细胞系、PTX和患者肿瘤的泛癌症基因表达谱进行生物学相关的整合。MOBER可用于指导细胞系和患者来源异种移植物的选择，并确定更接近患者肿瘤的模型。团队将其用于整合来自TCGA、MET500和CMI的932个癌症细胞系、434个PTX和11,159个患者肿瘤的转录组学数据，而无需依赖癌症类型标签。MOBER可以作为批量效应去除工具广泛应用于任何转录组学数据集，团队将该方法作为开源Python软件包提供。

细胞系和患者肿瘤数据集之间的信息传递

使用在CCLE细胞系原始基因表达谱上训练的ML模型，团队发现在预测极高转移潜能（前25%）与预测低转移潜能（后25%）的TCGA患者肿瘤中，生存率存在显著差异。然而，这与TCGA患者肿瘤的临床分期没有明显关联。然后，团队建立了能预测转移潜力评分的新ML模型，但这次，团队是根据经MOBER转化为类似TCGA肿瘤的细胞系基因表达谱来训练这些模型的。将这些ML模型应用于TCGA患者肿瘤时，团队预测了极高转移潜能（前25%）与低转移潜能（后25%）的TCGA患者肿瘤，从而实现了更显著的生存分层。此外，与早期肿瘤相比，这种模型预测晚期肿瘤的转移潜力更高。对每种疾病类型分别进行的相同分析表明，当ML模型在MOBER转化的细胞系转录组上训练到与患者肿瘤相似时，其可转化性得到了改善。团队使用的ML模型可能过于简单，无法忠实地推断肿瘤的转移潜力；不过，研究结果证明了使用MOBER转化的基因表达谱寻找生物标志物的实用性，这些标志物可以更好地转化为患者的生物标志物。

从MetMap中关联人类癌症细胞系中高/低转移潜能的生物标志物，并将其应用于患者。

总结

1. 研究整合了932个癌症细胞系、434个PTX和1,1159个临床肿瘤的基因表达数据，发现不同癌症模型在再现患者肿瘤转录谱方面差异明显。皮肤癌、乳腺癌等模型与患者肿瘤转录相似度高，胆管癌、肝癌等则差异大。CCLE和PTX作为癌症模型系统也存在差异，脑和软组织CCLE与患者肿瘤不同，而相应PTX模型转录保真度高。

2. PTX模型与患者肿瘤平均转录相似性高于CCLE模型，可能因CCLE培养条件、高传代次数和遗传不稳定性导致转录分化，且癌症模型可能因解剖学特征不明确或取样不匹配被错误标注。

3. MOBER具有可解释性，能让药物猎人了解模型与患者间潜在生物学差异，这些差异因疾病类型而异，凸显了使用无监督非线性方法识别疾病类型特异性变化的重要性。

4. 作为批量效应去除方法，MOBER相比其他方法，支持同时整合多数据集、可转换数据集且对数据集组成无假设，能消除不同代表性细胞群数据集间的批次效应，还能校正因临床前模型缺乏肿瘤微环境造成的差异。

5. MOBER源代码已在GitHub上提供，还开发了交互式网络应用程序，可探索癌症模型和临床肿瘤的MOBER对齐表达谱，识别最能代表肿瘤类型或亚型转录特征的临床前模型，未来版本将整合遗传和表观遗传特征进行更详细分析。

参考资料：

1.C. R. Ireson, M. S. Alavijeh, A. M. Palmer, E. R. Fowler, H. J. Jones, The role of mouse tumour models in the discovery and development of anticancer drugs. Br. J. Cancer. 121, 101–108 (2019).

2.J. Barretina, G. Caponigro, N. Stransky, K. Venkatesan, A. A. Margolin, S. Kim, C. J. Wilson, J. Lehár, G. V. Kryukov, D. Sonkin, A. Reddy, M. Liu, L. Murray, M. F. Berger, J. E. Monahan, P. Morais, J. Meltzer, A. Korejwa, J. Jané-Valbuena, F. A. Mapa, J. Thibault, E. Bric-Furlong, P. Raman, A. Shipway, I. H. Engels, J. Cheng, G. K. Yu, J. Yu, P. Aspesi, M. de Silva, K. Jagtap, M. D. Jones, L. Wang, C. Hatton, E. Palescandolo, S. Gupta, S. Mahan, C. Sougnez, R. C. Onofrio, T. Liefeld, L. MacConaill, W. Winckler, M. Reich, N. Li, J. P. Mesirov, S. B. Gabriel, G. Getz, K. Ardlie, V. Chan, V. E. Myer, B. L. Weber, J. Porter, M. Warmuth, P. Finan, J. L. Harris, M. Meyerson, T. R. Golub, M. P. Morrissey, W. R. Sellers, R. Schlegel, L. A. Garraway, The cancer cell line encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature 483, 603–607 (2012).

【关于投稿】

转化医学网（360zhyx.com）是转化医学核心门户，旨在推动基础研究、临床诊疗和产业的发展，核心内容涵盖组学、检验、免疫、肿瘤、心血管、糖尿病等。如您有最新的研究内容发表，欢迎联系我们进行免费报道（公众号菜单栏-在线客服联系），我们的理念：内容创造价值，转化铸就未来！