孔媛媛教授:肝细胞癌风险预测模型——多维数据与人工智能的前沿应用

360影视 动漫周边 2025-04-25 14:19 2

摘要:肝细胞癌(HCC)是全球范围内发病率和死亡率均较高的恶性肿瘤,尤其在亚洲和非洲部分地区负担沉重。随着医疗数据的爆炸式增长和人工智能(AI)技术的快速发展,HCC风险预测模型正经历着从传统静态方法向动态智能化方向的革命性转变。在近期举行的第四届肝病创新论坛上,首

编者按:肝细胞癌(HCC)是全球范围内发病率和死亡率均较高的恶性肿瘤,尤其在亚洲和非洲部分地区负担沉重。随着医疗数据的爆炸式增长和人工智能(AI)技术的快速发展,HCC风险预测模型正经历着从传统静态方法向动态智能化方向的革命性转变。在近期举行的第四届肝病创新论坛上,首都医科大学附属北京友谊医院孔媛媛教授在主题报告中,系统梳理了当前HCC预测领域的临床需求、技术挑战及前沿进展,特别关注了多维数据整合与AI方法的应用前景。

HCC风险预测的临床需求与挑战

HCC的流行病学在全球范围内展示出显著的区域差异性,特别是在东亚、西方和非洲地区,其发病率、病因及防控特点均存在明显不同。最新统计模型预测,未来HCC发病率在全球范围内仍将呈现上升趋势,这一趋势对早期预测和精准干预提出了更高的需求和挑战。目前临床常用的预测方法包括实验室检测指标(如AFP、PLT、ALB、ALT、AST、Tbil)、影像学诊断技术(超声检查、CT/MRI)以及瞬时弹性成像技术等。基于以上技术确定的指标建立预测疾病进展和风险分层模型。

然而,传统预测模型构建方法存在明显局限性:依赖于静态数据,即单次检测数值,难以反映患者病情的实时变化;传统模型,如Cox比例风险回归模型(Cox Proportional Hazards Model)基于比例风险假设(即预测变量对风险影响恒定)和对数线性关系假设,无法捕捉变量的动态变化趋势及复杂变量间的非线性关系[1],从而限制了模型的预测精度和临床应用价值。此外,由于肿瘤异质性问题,目前大多数风险预测模型难以适用于所有病因。

现有涉及到病因特异性的HCC风险评分系统,如Toronto HCC risk Index和ADRESS-HCC[2-4]等,虽然有所突破,但仍存在一定的局限性。例如,这些模型计算复杂,同时未能将所有HCC病因全面纳入评估,对于乙型肝炎(HBV)和丙型肝炎(HCV)相关HCC风险的精细区分也显不足。缺乏对不同病因引起的HCC以及分子特征的分层预测进一步限制了这些模型的临床实用性。最后,这些模型的泛化能力也面临挑战,缺乏跨地区、跨人群的数据验证和系统性评估,模型之间的头对头比较较少,进一步阻碍了其在临床中的普及和推广[5]。

提高HCC预测能力需要克服多重挑战。理想的HCC预测模型应具备四项关键能力:1.实时动态更新能力,应能够根据患者生物标志物的动态变化进行实时更新,反映疾病的进展或干预的效果;2. 个性化风险分层能力,整合多维数据源,包括患者的临床信息、实验室检测、影像学数据、基因组信息及生活习惯等,精准捕捉不同患者的特征,实现个性化风险分层和预测优化;3. 多源数据整合能力,构建遵循共享协议的模型框架,能够整合来自不同医疗中心和研究机构的多源异构数据,提高模型的普适性和适用性;4. 跨中心验证与泛化能力,通过在不同环境、地区和人群中进行跨中心和多样化的数据验证,不断优化模型性能,确保其在各种实际场景中的泛化能力。

多维数据整合驱动精准预测

现代HCC预测模型依赖于多维度数据的整合应用,包括静态数据与动态数据的有机结合。临床和病理数据构成基础层,涵盖患者人口统计、实验室结果和已确立的生物标志物(如AFP、PIVKA-II)等。炎症和纤维化评分提供疾病进程信息。放射影像与放射组学数据则可提取肿瘤特征:包括形态特征、增强模式、功能参数、血管侵袭和转移迹象等定量放射组学特征。分子数据层面包含单层分子信息(如基因、蛋白质、代谢物),重点揭示特定分子机制;而多组学数据则整合来自多个分子层的信息(如基因组学、蛋白组学、代谢组学),着眼于解析复杂系统和多因素相互作用。

数据质量控制是整合过程的核心挑战,主要目标是确保数据的准确性、完整性、一致性和可信性。主要问题在于如何整合多组学数据和标准化跨中心数据。建议的解决方案包括使用自动化验证工具识别错误、建立多组学和临床数据的统一标准、定期审查并解决数据不一致问题。具体措施包括开发跨中心数据整合平台、异常值检测标记异常数据、使用数据清洗和转换工具处理不一致数据、标准化数据采集流程,以及建立数据治理措施确保质量。关键措施在于制定统一的数据采集标准、标准化测序平台和组学数据的分析方法,并使用元数据文档跟踪数据收集过程。

公共数据分析平台为HCC研究提供了重要支持,并推动了科学发现的革新。这些平台通过整合、共享和标准化不同类型的数据,提供了从数据聚合到高效分析工具的一体化范式,期中有代表性的公共数据库包括:UK Biobank涵盖500,000名参与者的全景式数据资源,包括基因组学、影像学和详细的临床信息。提供数据筛选工具,如UKB Cohort Builder,利用50多个临床筛选器构建精准研究队列。Vivli,专注于临床试验数据的跨机构共享,已连接超过200家研究机构的数据资源。通Vivli Anonymization Engine,提供GDPR(General Data Protection Regulation)合规的数据匿名化服务,简化流程,加速数据共享效率。GDC(Genomic Data Commons),标准化存储癌症组学数据,提供GDC BAM Slicing 技术,允许研究人员提取特定基因组数据的片段,而无需下载整个大文件,大大缩短数据处理时间。这些平台共同构建了从数据聚合到工具可及性再到生态系统构建的科学发现新型范式。

HCC建模的先进方法:深度学习(DL)、机器学习(ML)与人工智能(AI)

AI技术在HCC预测建模中展现出强大潜力,主要方法包括监督学习、无监督学习、自监督学习和迁移学习。监督学习需要标注数据,强依赖标注质量,核心任务是将输入映射到输出,典型方法包括分类/回归(CNN, SVM),适用于图像分类和预测模型。无监督学习完全无标签,依赖数据分布,核心任务是发现数据模式,典型方法包括聚类/降维(K-means, PCA),适用于分类和异常检测。自监督学习通过自动生成伪标签构建预测任务学表征,适用于预训练模型和表征学习。迁移学习则利用源领域和目标领域数据实现知识跨领域迁移,适用于小样本学习和跨领域适应。

目前用于HCC预测的机器学习研究呈现出特定特点。研究显示,在数据方面,研究使用临床、影像、病理、基因数据集,样本量从36到124 006不等;算法选择上,CNN/DL常用于影像分析,而SVM/SF/XGBoost则更多应用于临床基因组数据;验证方面,仅30%的研究进行外部验证;性能表现上,AUC值介于0.70-0.99之间,其中影像研究的AUC最高,且具有可靠的灵敏度和特异度[6]。

肝病模型研究中AI方法的影响力分析[7]显示,可解释模型如随机森林和线性模型仍占主导地位,具有使用率高但影响力低的特点;深度学习则在处理多模态数据(组织病理学+组学)方面应用日益广泛。HCC/ACLF模型在大型数据集上表现出高准确率,但大多数研究仍将特征提取与建模过程分开。深度学习在处理复杂高维数据方面展现出明显优势。

AI模型开发需要遵循严格的流程和报告规范。基于AI的诊断和预后预测模型研究的报告应遵循TRIPOD+AI声明(Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis),并采用PROBAST-AI(Prediction model Risk of Bias Assessment Tool for AI-based models)评估评估基于 AI 和机器学习的诊断与预后预测模型中存在的偏倚风险,以及模型适用性[8-9]。这对于保障研究的透明性、完整性和可重复性至关重要。

未来展望与挑战

AI在肝癌管理中的广阔应用潜力毋庸置疑,但在实现其真正价值前,当前AI技术在HCC风险预测中仍面临关键挑战,主要集中在标准化、模型验证以及数据共享与样本多样性三大方面。标准化方面,缺乏基于AI的数据分析和解读的通用方法,特别是缺失数据处理尚无统一流程框架,数据收集和处理缺乏统一协议,机器学习(ML)研究报告规范性不足。验证方面,大多数现有研究基于回顾性和静态数据,缺乏外部验证,处理真实世界数据的适应性不佳。数据共享和人群多样性方面,大规模数据集访问受限,AI模型训练数据中人口代表性不足,存在隐私与伦理问题、存储成本和个体参与者数据(IPD)共享机制也有待完善。

解释AI“黑盒子”是提高临床接受度的关键。以AI辅助病理诊断为例,从数字切片图像中预测肿瘤与非肿瘤的可解释性包括三个关键组成部分:透明度(了解神经网络结构和神经元激活模式)、语义(识别触发特定网络响应的图像特征)和解释(揭示特征组合如何影响最终预测结果)。只有做到可解释,才能建立可信赖的AI系统。

小 结

基于AI的HCC风险预测模型研究方法学要点可以概括为以下三个核心方面:融合多维度数据和先进的AI方法革新预测模型;通过大规模前瞻性研究,对AI算法进行真实世界数据验证,确保可靠性和适用性;遵循国际标准化报告指南,全面且透明地报告AI研究,确保AI研究的透明性和可重复性。随着AI技术进步和跨学科合作深入,智能化、个体化的HCC风险预测模型将有望为肝癌防治带来新的突破。

参考文献

1. CMH 2023;29:747-762

2. Fan R et al. J Hepatol. 2020;73:1368-1378.

3. Sharma SA, et al. J Hepatol. 2018;68:92-99.

4. Flemming JA, et al. Cancer. 2014;120:3485-93.

5. CGH 2021;19:2499–2513

6. J Clin Transl Hepatol. 2023;11:1184-1191.

7. Gut 2025;74:295–311.

8. BMJ. 2024:385:e078378.

9. BMJ Open. 2021;11:e048008.

来源:临床肝胆病杂志一点号

相关推荐