Cancer Cell丨人工智能与转化癌症研究交叉领域的新视野

360影视 欧美动漫 2025-05-28 07:31 4

摘要:人工智能(AI)作为一种分析多组学数据集的计算策略,在癌症研究中的应用日益广泛。单细胞和空间组学极大地促进了我们对肿瘤生物学的理解,目前AI已用于转化研究工作,包括新靶点的发现、生物标志物的识别、患者分层以及治疗反应的预测。尽管取得了部分进展,但AI在临床工作

人工智能(AI)作为一种分析多组学数据集的计算策略,在癌症研究中的应用日益广泛。单细胞和空间组学极大地促进了我们对肿瘤生物学的理解,目前AI已用于转化研究工作,包括新靶点的发现、生物标志物的识别、患者分层以及治疗反应的预测。尽管取得了部分进展,但AI在临床工作中仍存在一定的局限性,这既带来了挑战,也蕴含着机遇。本综述探讨了AI在多组学分析和转化肿瘤学中的应用,强调了能够推动生物学研究和为临床决策提供有用信息。重点关注的领域包括细胞异质性、肿瘤微环境相互作用以及AI辅助诊断。同时,探讨了AI模型的可重复性、可解释性以及临床整合等挑战,并提出了应对策略。这些发展说明了AI和多组学研究在推动精准肿瘤学研究和癌症治疗方面的潜力。

文章信息

期刊:Cancer Cell

发表时间:2025 Apr 14

作者:Josephine Yates, Eliezer M Van Allen

DOI: 10.1016/j.ccell.2025.03.018

导读

人工智能(AI)涵盖了多种计算技术,使机器能够执行传统上需要人类智能的任务,例如学习、语言理解、模式识别和问题解决。在AI中,子领域如机器学习和深度学习受到了广泛关注,深度学习专注于人工神经网络的开发。近年来,AI在众多领域取得了进展,包括教育、自主系统和医疗保健。此外,在癌症研究中的应用不断增长,涵盖了从基础科学工作(如蛋白质折叠预测)到转化工作(如生物标志物发现)以及临床试验组织等。

单细胞测序和空间组学的进步加深了我们对肿瘤生物学的理解,尤其是通过多组学方法阐明肿瘤发生、进展和转移的机制。多组学指的是对细胞组分的综合分析,包括基因组学(DNA)、转录组学(RNA)、表观基因组学(表观遗传修饰)、蛋白质组学(蛋白质)和代谢组学(代谢物)。此外,整合性多组学方法实现了对肿瘤生物学的整体认识,进一步推动了对癌症的深度理解。

本综述旨在解决AI、多组学和癌症研究交叉领域的关键问题:

1. 癌症研究中用于分析多模态分子数据的主要计算和AI导向方法有哪些?

2. 这些分析如何有助于转化癌症研究,从基础发现到可操作的治疗决策?

3. 目前临床中整合了哪些AI模型?

4. 将AI辅助发现整合到临床领域中存在哪些挑战和机遇?

癌症研究中多组学分析的计算方法

单细胞和空间组学的计算方法

肿瘤异质性是癌症的一个标志,单细胞测序使其研究达到了前所未有的分辨率。这些技术为揭示恶性肿瘤细胞及肿瘤微环境(TME)在遗传学、表观遗传学和转录层面的复杂性,以及它们的空间组织结构和相互作用关系提供了全新见解。尽管体外技术能够获取肿瘤间异质性,但肿瘤内异质性的研究必须依赖单细胞和空间分析技术。已有文献对支持这些发现的实验方法学进行了全面综述,然而这些数据集的分析需要基于AI的先进计算方法。尽管AI与标准机器学习的界限仍存在争议,但在某些情况下简单方法仍可与复杂AI模型相媲美。本综述聚焦于AI在肿瘤学领域的最新应用,同时也充分肯定传统计算技术的重要价值。

单细胞RNA测序(scRNA-seq)的核心目标是识别不同患者共有的细胞状态并实现精确的细胞类型注释。这一过程需要整合多组数据集,但由于批次效应和患者间异质性而面临重大挑战。尽管传统机器学习方法有助于减轻批次效应,但AI驱动的模型,如基于变分自编码器的scVI和对抗训练的变分自编码器模型Portal,能够分析更大、更复杂的数据集。另一种互补策略是先进行患者特异性分析再整合结果,通过非负矩阵分解技术揭示跨癌种的复发调控程序。尽管机器学习在批次校正方面仍具优势,但人工智能模型更能深入解析由遗传变异、表观遗传修饰和微环境因素共同塑造的复杂肿瘤细胞状态(图1)。

多模态整合的计算方法

单组学分析虽能提供肿瘤异质性的重要见解,但多组学整合可更全面地揭示肿瘤发生过程及其调控网络。这种多组学方法极大提升了基因型-表型关联的解析能力,对临床转化研究尤为重要。其中,RNA与其他组学数据的联合检测(如转座酶可及染色质测序、蛋白质组或DNA测序)展现出显著优势。目前常用的计算工具包括:1.图神经网络的MOGONET(适用于批量测序数据);2.条件变分自编码器的GLUE和MultiVI(适用于单细胞数据);3.开发的图神经网络与注意力机制融合的SpatialGLUE(适用于空间组学数据)。

要深入理解细胞特性和功能,关键在于解析基因调控网络(GRN)——这一由基因、转录因子和调控元件构成的复杂系统控制着基因表达。鉴于其多模态特性,配对的RNA与ATAC数据成为GRN推断的理想选择。目前主要分析方法包括:SCENIC+:通过统计与机器学习技术关联染色质可及性、转录因子基序与基因表达;基于神经网络的LINGER:可高精度重建GRN。多组学整合的价值不仅限于GRN推断,还体现在以下方面:利用CellOracle预测转录因子扰动效应;通过MultiVelo构建转录组-表观组时序动态模型;采用MMCCI识别跨样本的细胞间相互作用。

尽管多组学方法潜力巨大,但多模态数据仍面临获取困难、成本高昂及易受噪声干扰等问题。当前解决方案包括镶嵌整合技术和跨模态转换模型。AI技术凭借处理高维、异质和噪声数据的能力,为多组学整合提供了可扩展的预测框架,在最大化有限数据价值的同时,持续推动生物医学研究的突破。

向通用细胞语言迈进:癌症生物学中的Transformer

在转化肿瘤学领域,许多现有的AI方法高度专门化,适用于特定任务,在既定情境中优化性能,但限制了其通用性。受自然语言处理领域进展的启发,基于Transformer的基础模型通过对海量数据集进行训练,生成通用的生物学表征,从而满足上述需求。

生物学中的基础模型最初在scRNA-seq分析中获得关注,因为可用数据的数量以及下游任务的范围与计算机视觉等领域的情况类似。例如Geneformer和scGPT,它们采用了仅编码器的Transformer架构,分别在包含3000万个和3300万个单细胞的大型数据集上进行了预训练。在单细胞基础模型取得成功之后,空间基础模型开始涌现。如用于转录组学的Nicheformer和scGPT-spatial,以及用于蛋白质组学的VirTues,代表了将这些方法扩展到空间分辨数据的初步尝试。

尽管这些模型应用前景广阔,但生物学中的基础模型仍然是一个新兴领域。虽然这些模型已显示出潜力,但最近的研究表明,与针对特定任务定制的专门方法相比,它们在零样本设置下的表现往往不佳。然而,随着该领域的发展,基础模型有望超越单细胞和空间转录组学,实现真正的多模态整合,纳入基因组学、蛋白质组学和代谢组学等多种分子数据类型。这种扩展将更全面地理解癌细胞调控和肿瘤进化,改善癌症分类和预测。反过来,这些进展可以通过实现精确的患者分层、识别新型生物标志物以及更准确地预测治疗反应,对个性化治疗策略产生深远影响。

图1. 多组学分析中的AI

多组学分析对转化癌症研究的影响

基于AI的多组学分析助力基础生物学发现

多组学分析的整合极大地推进了我们对基础生物学的理解,以及其在精准肿瘤学中的潜在临床应用。通过利用单细胞和空间多组学,研究人员对肿瘤内的癌症异质性和细胞状态有了更深入的了解。例如,Bai等人识别出2型嵌合抗原受体(CAR)T细胞缺陷是肿瘤复发的驱动因素,为延长缓解期提供了潜在策略。Liu 等人利用空间分析绘制了肢端黑色素瘤进展的图谱,强调APOE和CD163是潜在的生物标志物和治疗靶点。这些研究说明了如何整合多模态AI推理有助于得出有针对性和具体的生物学发现。除了单一癌症研究之外,大量可用数据使AI成为研究各种癌症类型中肿瘤异质性的关键工具。例如,Mo等人利用基于深度学习的整合方法对肿瘤内不同的空间区域进行了表征,揭示了影响肿瘤进展和治疗耐药性的独特遗传、代谢和免疫相互作用。总体而言,通过将AI与单细胞和空间多组学相结合,研究人员深化了对疾病背后生物学机制的理解,提供了有价值的见解,从而为肿瘤的治疗方法提供参考。

AI模型用于生物标志物发现和患者分层

生物标志物在癌症研究和临床实践中发挥着关键作用,有助于早期肿瘤检测、预后判断,以及识别疾病侵袭性和进展的标志物(图2)。这些可测量的生物实体,如分子、基因或细胞特征,对于理解肿瘤行为、预测疾病结果以及指导个性化治疗至关重要。基于AI的多组学分析已成为推进早期癌症检测和生物标志物发现的关键方法。例如,Carpenter等人利用空间和单细胞数据,通过降维、整合和细胞-细胞相互作用分析揭示胰腺病变的早期特征,而Gehrung等人则应用卷积神经网络(CNN)进行早期癌症识别。早期的机器学习技术还使得使用非侵入性生物标志物进行早期癌症检测成为可能,例如Cohen等人基于血液中DNA的逻辑回归模型,Bratulic等人对血浆或尿液的代谢组学分析。

AI还成为了发现治疗反应生物标志物的有力工具,特别是通过对单细胞和空间分辨数据的分析。免疫检查点抑制剂(ICI)反应的生物标志物一直是研究的重点,美国食品药品监督管理局(FDA)批准的分子标志物(如PD-L1表达、肿瘤突变负荷和微卫星不稳定性)在许多患者中无法预测治疗反应。在黑色素瘤、基底细胞癌、肾细胞癌和三阴性乳腺癌的研究中,通过降维、整合、轨迹分析、基因调控网络推断和细胞间通讯等单细胞分析,描绘了有反应者和无反应者的分子和细胞图谱,揭示了新的生物标志物和耐药机制。

生物标志物发现的最新进展扩展到了空间领域,需要为特定空间目的开发的AI方法,如基于神经网络的细胞分割方法。在生物标志物发现的基础上,关键是使用这些生物标志物对患者进行分层,无论是用于临床决策支持,还是在临床试验中识别最有可能从特定治疗中获益的个体。AI显著提高了此类分层系统的准确性和效率。最后,多模态生物标志物的兴起促使开发了更复杂的AI模型。这些基于AI的方法不仅可以帮助发现新的生物标志物,还可以将这些发现转化为可操作的策略,推进精准医学,并最终改善患者结果。

AI模型用于药物发现

计算机辅助药物发现(CADD)采用计算技术,包括分子建模、基于结构的药物设计和机器学习,以加速和完善治疗化合物的开发过程。AI模型在这一领域中发挥着关键作用,能够在计算机模拟中创建具有特定属性的新型活性分子(图2)。在全新药物发现方面存在两种主要模式:基于靶点的方法和基于表型的方法。

基于靶点的药物发现侧重于为预定义的分子靶点(如基因或蛋白质)设计化合物,这些靶点通常是通过多模态分析或大规模项目确定的。用于基于靶点发现的AI模型包括扩散模型以及基于强化学习的方法,这些模型主要专注于小分子设计。相比之下,基于表型的药物发现侧重于开发能够诱导特定生物学效应(如癌细胞死亡)的药物,且无需事先了解分子靶点。这种策略通常整合患者的分子特征,利用RNA和其他组学数据来指导药物开发。

未来的研究可能会集中于多模态整合,利用像CellOracle和scGPT等工具,这些工具在预测方面已显示出潜力。通过分析基因组、转录组和蛋白质组层面的数据,这些模型能够识别持续失调的信号通路和关键疾病驱动因素,从而改进基于靶点和基于表型的方法。在多个调控层面捕捉稳健的治疗反应可以增强或阐明临床相关性。总体而言,AI正在改变药物发现的这两种模式,使其更高效、可扩展且个性化,这加速了新型癌症治疗方法的开发。

图2. AI在转化肿瘤学中的作用

AI在临床医疗中的现状

超越DNA生物标志物的精准肿瘤学研究拓展

尽管前文强调了AI与转化肿瘤学融合的众多例子,但将这些转化见解带入临床的AI方法还不够成熟。即便如此,AI正在被探索并整合到癌症诊断和检测的临床医疗中。目前,估计约三分之一的癌症患者可以从一线或二线精准肿瘤学治疗中受益,且这一比例正在稳步增长。精准肿瘤学主要依赖于遗传改变,80%的FDA批准的疗法针对DNA基因标志物。目前正在努力简化将患者分子数据整合到可操作临床报告中的流程,如MOAlmanac等工具,它将有助于精准肿瘤学的实际应用。完全整合的多组学药物推荐模型仍在开发中,多模态整合和基础模型方面的创新将推动其未来的临床应用。然而,将单细胞测序和空间转录组学纳入临床工作流程仍面临着巨大挑战。

AI在癌症诊断中的成像和计算病理学中的应用

AI驱动的成像技术已成为AI融入到临床工作流程中的最早成功案例之一。临床试验已证明,基于CNN的AI增强方法在多种应用中的安全性和有效性,例如替代乳房X光检查的标准双筛方法、提高结肠镜检查中息肉检测率以及在胃镜检查中识别上消化道病变。临床前证据进一步强调了深度学习在筛查领域的潜力。AI驱动工具的进步表明了它们在公众应用方面的潜力,例如,基于卷积神经网络的模型能够高精度地从智能手机图像中对皮肤癌进行分类。

计算病理学是一个快速发展的领域,CNN、RNN和Transformer深度学习模型以及新兴的基础模型在癌症检测、亚型分类、转移性肿瘤组织来源预测和癌症分级等任务中取得了较好的结果。AI在这一领域取得相对成功的原因在于病理学检测已常规整合到临床工作流程中,这有助于AI系统的应用。

尽管取得了显著进展,但AI在临床成像中的应用仍面临挑战。FDA批准的AI诊断工具数量仍然有限,这既反映了严格的监管要求,也表明许多模型未能满足在疗效、成本效益和临床实用性方面的必要标准。随着监管框架的不断发展,能更好地适应AI驱动的创新,尤其是在处于医疗领域AI应用前沿的成像领域。随着这些框架不断完善审批途径,将为更复杂的AI模型(包括那些为多组学基础精准肿瘤学设计的模型)最终融入临床奠定基础。

挑战与机遇:利用AI弥合当前临床实践与多组学研究之间的差距

将生物学发现转化为可操作的临床工具

单细胞和空间转录组学数据的规模不断扩大,开始与计算机视觉和自然语言处理等领域的数据丰富度相媲美。例如,广泛使用的数据集,如ImageNet(约1400万张图像)和COCO(约250万个标记实例,跨越32.8万张图像),在规模上可与人类细胞图谱(Human Cell Atlas)等生物学数据集相比较。然而,在特定癌症研究中,未达到这样的队列规模,并且将这些发现转化为可操作的临床工具还需要解决在结果可重复性和验证方面的挑战。可重复性仍然是医疗保健研究中的一个已知问题,尤其是在单细胞研究和特定癌症研究中。为确保临床适用性,对预后特征和生物标志物进行严格验证至关重要(图3)。

计算验证是第一步,并且应该成为一项系统性要求。研究结果必须在不同数据集上证明其可重复性和一致性,相关机制需得到外部数据的支持。此外,通过将复杂AI模型与传统统计方法和早期机器学习方法进行比较,评估它们的价值也很重要。评估它们的性能有助于确定非线性模型的复杂性是否提供了有意义的优势。实验和临床验证是下一步,这对于基础研究和临床转化至关重要。通过实验验证(包括体外或体内实验)以确认生物标志物与疾病进展、转移或治疗反应之间的联系。随后进行临床验证,特别是在严格的临床试验中测试生物标志物和AI工具,以确保它们在临床工作流程中的安全性和有效性。除了模型验证之外,确保标准化和透明的报告对于临床应用至关重要。最终,计算验证和实验验证对于将AI驱动的发现从理论模型推进到可操作的、基于证据的临床解决方案都至关重要。

使生物学和临床AI方法更具可解释性

AI方法的开发通常优先考虑优化性能指标,例如癌症亚型分类的准确性。然而,仅靠高性能对于转化肿瘤学或临床应用并不够。可解释人工智能(XAI)领域旨在通过提供关于模型决策的透明度、合理性证明、不确定性估计以及可操作的见解来解决这个问题,从而促进更明智的临床决策。在本综述中,我们将使用XAI来涵盖可解释AI和可解读AI(图3)。

XAI方法可分为本质上可解释的模型,例如逻辑回归,以及应用于黑箱模型的事后分析方法,如DeepLIFT、SHAP和预测差异分析。这些模型随后在转化肿瘤学领域进行了研究,例如在前列腺癌中,将生物学分析与预测性能相结合。虽然事后分析方法将可解释性扩展到更强大但不透明的模型,但证据表明这些技术可能缺乏可靠性。此外,在算法可解释性和用户可解释性之间存在区别,后者将决策与生物学见解联系起来。例如,计算机视觉中的显著性图突出显示影响决策的区域,但没有阐明这些区域内的具体特征哪些是决定性的,这就需要用户自行解读。展望未来,可解释模型性能的提升以及改进后的事后分析方法对于在准确性、透明度和可信度之间实现平衡至关重要,而这种平衡是实现广泛临床应用所必需的。

低复杂度解决方案应对高复杂度问题

将AI模型整合到临床实践中的关键挑战之一在于当前最先进系统的复杂性和计算需求。这些模型通常规模庞大、资源消耗高,并且需要一定水平的计算专业知识,而这对于典型的医疗保健环境来说并不现实。为了解决这个问题,部署的临床模型必须轻量级且易于使用,同时尽量减少对专业AI知识的依赖(图3)。知识蒸馏(KD)是通过训练一个较小的“学生”模型来复制较大“教师”模型的行为。这种技术使学生能够从标记数据和教师的细微“软标签”中学习,而软标签通常为决策过程提供更丰富的见解。

KD已成功应用于生物医学图像分割、癌症预后预测、多模态整合和细胞类型注释,从而产生了可以在临床医生平板电脑等设备上运行的精简模型。这种可访问性将先进AI工具的范围扩展到资源有限的环境中,包括农村或低收入地区,促进了医疗保健的公平可及性。此外,稀疏建模是简化大规模AI系统的另一种方法,通过选择最小的生物标志物子集或利用替代生物标志物,稀疏模型在减少特征冗余的同时提高了稳健性。这些方法可以通过结合先验生物学知识或在KD框架下进行训练来进一步增强。利用现成的临床数据,如H&E染色切片,也可以推断从批量或单细胞RNA测序中得出的复杂生物标志物特征。同样,KD框架已被用于提炼多模态特征,如组织-基因组学数据,使模型能够在部署时仅从单一模态进行推断。这些方法减少了对昂贵且耗时的多模态数据收集的依赖,加速了将多模态研究发现转化为临床工作流程的过程。最终,系统地开发轻量级和高效模型对于确保AI在临床中的广泛应用至关重要。通过解决计算和传输障碍,这些方法有可能使尖端AI工具易于获取、实现公平性,并无缝整合到日常医疗实践中。

AI驱动的精准医学协作和标准化

AI在医学中的日益整合带来了巨大的潜力,但结果的可重复性是大家担忧的一个方面。诸如缺乏共享代码、对训练条件敏感以及报告不一致等,降低了AI模型的可靠性。解决方案必须包括分析协议的标准化、报告指南的制定,以及促进计算和实验研究人员之间的合作,以弥合发现与临床应用之间的差距(图3)。从计算的角度来看,质量控制至关重要。此外,标准化临床实践同样重要。使用OMOP或PRISSMM等框架对临床数据进行一致的注释,对于将基因型与表型联系起来以及推动发现可靠的生物标志物至关重要。

为了保持精准医学基于证据的严谨性,标准化报告对于确保研究结果的可重复性和数据整合的稳健性至关重要。可靠、高质量且具有代表性的数据集至关重要,因为即使是先进的AI模型,在处理嘈杂或不一致的数据时也会遇到困难。计算生物学中的一个重要问题是,模型基准测试常常依赖于“简单场景”,而这些场景往往无法反映现实世界场景的复杂性。例如,单细胞和空间方法的基准测试主要使用外周血单核细胞和小鼠脑组织数据集;选择这些样本是因为相对容易获取经过良好注释的高质量数据。然而,这种做法导致评估主要在高度结构化的数据上进行,而这些数据无法很好地应用于更复杂的癌组织环境。因此,癌症研究中的基准测试需要转向多样化且注释良好的数据集,以更好地反映现实临床环境的异质性。这对于建立可重复性标准和稳健的实践至关重要,有助于开发能够在复杂的生物学和临床环境中产生有意义结果的AI工具。

最后,合作是推动AI在医疗领域发展的基石。计算科学家和临床医生之间强大的合作关系可以使技术能力与临床需求相匹配,而干湿实验研究的整合则促进了从计算发现到实验验证的流程。这些合作关系对于确保AI模型不仅准确,而且在现实临床环境中具有实用性和益处至关重要。

图3. 转化肿瘤学中的AI面临的挑战和机遇

结论

AI已成为肿瘤学领域的一个变革性工具,展现出了提升诊断准确性、辅助临床决策以及推动精准医学发展的潜力。通过对复杂多模态数据集的分析,计算方法发现了新的生物标志物,加深了对癌症生物学的理解,推动了抗癌药物的研发,并优化了诊断和预后策略。虽然AI在临床环境中的整合仍处于早期阶段,但随着精准肿瘤学日益凸显,其作用正在不断扩大。为确保安全有效地采用AI,基于AI得出的研究结果必须在不同数据集上进行严格的可重复性测试,同时通过可靠的临床试验使模型更具可解释性并得到验证。将AI成功应用于肿瘤学,取决于计算科学家、临床医生和实验研究人员之间的密切合作,使技术能力与临床需求相契合。尽管存在这些挑战,但随着AI方法的持续改进,再加上数据质量和标准化方面的进步,有望显著改善癌症治疗。通过克服这些障碍,AI有望开启个性化、循证肿瘤学的新时代,重塑人们对癌症的认知、诊断和治疗方式。

来源:医学顾事

相关推荐