基于多维数据分析的结直肠癌疾病进展分子靶点与机制解析

360影视 日韩动漫 2025-05-27 21:23 3

摘要:方法基于TCGA-CRC数据集(556例结直肠癌样本)及GEO数据库中3个结直肠癌数据集(GSE39582/GSE68468/GSE41258),采用DESeq2筛选结直肠癌的差异表达基因;通过Mfuzz时间序列分析鉴定随肿瘤进展表达持续上调的基因簇;利用cl

文章来源:国际外科学杂志, 2025, 52(03)

摘要

目的揭示结直肠癌进展的动态分子特征,筛选驱动疾病发展的关键分子及信号通路,为精准诊疗提供理论依据。

方法基于TCGA-CRC数据集(556例结直肠癌样本)及GEO数据库中3个结直肠癌数据集(GSE39582/GSE68468/GSE41258),采用DESeq2筛选结直肠癌的差异表达基因;通过Mfuzz时间序列分析鉴定随肿瘤进展表达持续上调的基因簇;利用clusterProfiler进行功能富集分析,使用STRING在线平台构建蛋白质互作网络,鉴定网络中的关键基因;并结合单细胞测序数据(GSE132465/GSE144735)解析关键基因的细胞来源及细胞间通讯;采用单因素Cox比例风险模型(似然比检验)评估基因预后价值,单细胞测序数据通过Seurat流程中的Wilcoxon秩和检验鉴定差异表达基因。

结果时间序列分析鉴定出基因簇4(含186个基因)在结直肠癌Ⅰ~Ⅳ期呈持续上调趋势;功能富集分析显示这些基因显著参与细胞外基质(ECM)重塑及PI3K-Akt、MAPK等信号通路;PPI网络筛选出COL10A1、THBS2、SPP1等10个关键基因,其高表达与患者不良预后显著相关;单细胞测序揭示这些关键基因特异性高表达于成纤维细胞亚群,而SPP1主要富集于巨噬细胞;细胞通讯分析证实THBS2-CD47和SPP1-CD44是介导成纤维细胞-免疫/内皮细胞互作的主要通路。

结论ECM相关基因与结直肠癌的进展密切相关,其关键分子THBS2和SPP1可能通过介导THBS2-CD47及SPP1-CD44互作通路,驱动肿瘤微环境中基质-免疫细胞通讯,进而促进结直肠癌进展。

结直肠癌是全球常见且在治疗方面极具挑战性的癌症之一,其发病机制受到多种遗传和环境因素的共同影响。尽管已有大量研究关注其病理特征和治疗方法,但对于结直肠癌发生和进展的分子机制仍缺乏全面的理解,尤其是其动态演变过程。先前的研究揭示了基因突变(如KRAS、TP53等)和信号通路(如Wnt/β-catenin、PI3K/Akt等)的相关性。然而,关于基因突变及其在癌症进展发生的变化,以及这些变化对疾病病理的具体影响,仍未完全阐明。这些问题阻碍了肿瘤阶段特异性生物标志物和靶向治疗的开发,而这些对改善患者预后至关重要。本研究拟通过分析结直肠癌不同阶段的基因表达模式,从而加深对结直肠癌疾病进展分子机制的理解。

1 资料与方法

1.1 数据采集与处理

采用TCGAbiolinks R包(版本2.24.3)从癌症基因组图谱(The Cancer Genome Atlas,TCGA)中获得结直肠癌数据集(TCGA-CRC),该数据集纳入了556例经病理确诊的结直肠癌患者的肿瘤组织样本的及46个癌旁正常组织样本的转录组RNA测序数据。数据集中患者年龄分布为57~75岁(中位年龄66岁),其中男性302例(54.3%),女性254例(45.7%)。

利用GEOquery R包(版本2.64.2)从基因表达图谱(Gene Expression Omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)中获取3个补充结直肠癌数据集(GSE39582、GSE68468、GSE41258),以验证TCGA-CRC数据集中发现的结果。

从人类蛋白质图谱数据库(Human Protein Atlas,HPA)(https://www.proteinatlas.org/)获得了人体正常组织和肿瘤组织的免疫组化图像。蛋白表达水平提取自UALCAN(University of ALabama at Birmingham Cancer)在线平台(https://ualcan.path.uab.edu/)。

1.2 差异表达基因分析

使用DESeq2 R包(版本1.36.0)识别肿瘤样本和正常样本之间的差异表达基因(Differentially expressed genes,DEGs)。若基因的绝对变化(LogFoldChange,LogFC)大于1.5且 P

1.3 时间序列分析

为了揭示疾病各阶段的基因表达动态,使用Mfuzz R软件包(2.26.0版本)进行时间序列分析,以识别在疾病逐渐进展过程中(肿瘤的Ⅰ~Ⅳ期)表现出相似表达模式的基因。

1.4 基因功能富集分析

使用clusterProfiler R包(版本4.4.4)进行功能富集分析。该工具能够系统地揭示基因簇的功能属性,从而阐明它们在结直肠癌发病和进展中的潜在作用。

1.5 蛋白质-蛋白质相互作用分析及关键节点鉴定

使用STRING在线平台分析蛋白质之间的相互作用。并使用ggraph R包(版本2.1.0)展示蛋白质-蛋白质相互作用网络结构,以中心度(centrality-degree)指标识别处于互作网络中关键节点的分子。

1.6 生存分析

以无进展间隔(Progression-free interval,PFI)为主要终点,探讨了蛋白-蛋白相互作用(Protein-protein interaction,PPI)网络中鉴定的关键分子对患者生存的影响。

1.7 基因组变异分析

使用GSVA包(版本1.44.2)中的基因集变异分析(Gene set variation analysis,GSVA)算法,评估从时间序列分析中鉴定的基因在不同样本中的整体表达水平。

1.8 单细胞RNAseq数据处理

从GEO数据库中获取了2个结直肠癌组织单细胞RNA测序(scRNA-seq)数据集(GSE132465和GSE144735),并使用R(版本4.3.1)和Seurat(版本5.0.1)对数据集进行整合。使用Seurat的RunPCA进行归一化和主成分分析(Principal component analysis,PCA)降维。采用HarmonyIntegration方法校正批处理效应。利用统一流形逼近和投影法(Uniform manifold approximation and projection,UMAP)进一步降维。使用FindNeighbors和FindClusters对细胞进行聚类。最后,使用已知标记分子识别细胞类型。

1.9 细胞间通讯分析

使用CellChat R包(版本2.1.0)对来自scRNA-seq数据的10种细胞之间的可能的细胞间通讯进行分析,并进行可视化。

2 结果

2.1 结直肠癌不同阶段基因表达的时间序列分析

通过将Ⅰ~Ⅳ期结直肠癌组织样本与正常样本比较,共得到3 418个DEGs。采用Mfuzz方法分析这些DEGs,最终将这些基因划分为8个具有相似表达模式的基因簇(见插页,图1Ⓐ)。其中,基因簇6、7的基因呈连续下降趋势,基因簇1、2、3、5和8的基因呈不连续趋势。而基因簇4中的186个基因在从正常到Ⅳ期结直肠癌样本的转录水平上表现出显著的逐步上升趋势(见插页,图1Ⓐ)。来自GSE39582数据集中的数据也验证了基因簇4的基因在不同肿瘤分期中的表达趋势(见插页,图1Ⓑ)。此外,GSE68468及GSE41258的数据进一步表明从正常样本到息肉和癌症阶段,基因簇4的基因表达水平也呈现持续上调趋势(见插页,图1Ⓒ、Ⓓ)。以上结果表明基因簇4中的基因可能与肿瘤的发生和进展有密切关联。

2.2 功能富集分析和生存分析

对基因簇4中的基因进行的功能富集分析包括GO和KEGG富集分析。GO富集分析结果表明这些基因可能与细胞外基质(Extracellular matrix,ECM)重塑、细胞外结构组织、上皮管形态发生和胶原原纤维组织密切相关(见插页,图2Ⓐ)。KEGG分析表明这些基因可能参与癌症相关通路,包括PI3K-Akt信号通路、MAPK信号通路、Wnt、Ras信号通路,以及ECM受体相互作用和蛋白质消化吸收(见插页,图2Ⓑ)。

2.3 蛋白质-蛋白质相互作用分析

基于基因簇4中基因进行蛋白质-蛋白质相互作用分析最终得到1个有31个节点和276条边的互作网络图(见插页,图2Ⓒ)。结果表明,具有高中心度(degree)的关键基因有COL10A1(degree=40)、COL11A1(degree=36)、SPP1(degree=30)、COMP(degree=26)、ITGA11(degree=26)、COL12A1(degree=24)、THBS2(degree=24)、COL9A1(degree=22)、COL9A3(degree=20)和IBSP(degree=20)。此外,基于基因间相互作用关系可将网络图中的节点聚类为不同的功能群,图2Ⓒ中不同颜色的节点代表不同的基因功能群,暗示同色基因可能在功能上具有相似性或参与相同的生物学途径。其中,红色基因功能群主要包括ECM相关基因如COL1A1、SPP1及THBS2等,而绿色基因功能群主要包括TWIST1、IBSP等转录因子及整合素相关基因。

对图中前10个关键基因进行单因素Cox回归分析,结果显示大多数基因的风险比大于1(P

2.4 单细胞测序分析

为了探索已鉴定关键基因的细胞来源,本次研究中使用来自2个GEO数据集中共51个结直肠标本(肿瘤核心区、交界区和正常组织)的88 441个细胞的公开数据集进行了单细胞RNA测序分析,最终构建出包括10个细胞亚群的结直肠癌单细胞图谱(见插页,图3Ⓐ),包括上皮细胞、CD8/CD4 T细胞、成纤维细胞、浆细胞和B细胞、单核细胞、调节性T细胞、巨噬细胞和内皮细胞(见插页,图3Ⓑ)。其中上皮细胞、CD8/CD4 T细胞和成纤维细胞是这些细胞中的主要亚群(见插页,图3Ⓒ)。

将先前鉴定的关键基因映射到这个单细胞图谱上,结果显示,胶原相关基因(COL12A1、COL11A1、COL10A1)、THBS2、COMP和ITGA11在成纤维细胞中广泛存在,而SPP1在巨噬细胞/单核细胞中相对高表达(见插页,图3Ⓓ)。

2.5 细胞-细胞相互作用分析

基于前期筛选的10个关键基因,采用Cellchat算法分析其可能参与的细胞间相互作用。结果表明,SPP1和THBS通路可能是与上述关键基因参与细胞间相互作用最主要的途径(见插页,图4Ⓐ、Ⓑ)。在THBS通路中,成纤维细胞主要作为信号发送者,上皮细胞、巨噬细胞和调节性T细胞是主要的受体。而在SPP1通路中,巨噬细胞是主要的信号发送者,成纤维细胞和内皮细胞是主要的受体。具体而言,成纤维细胞主要通过THBS2-CD47与其他细胞发生相互作用,而巨噬细胞/单核细胞主要通过SPP1-CD44与免疫细胞、内皮细胞和上皮细胞发生相互作用(见插页,图4Ⓒ)。

2.6 蛋白质组学水平上基因表达变化的验证

利用公共蛋白质组数据库(UALCAN、HPA)验证在转录组水平检测到的THBS2和SPP1的基因表达变化。患者组织切片的免疫组织化学分析显示,与正常结肠对照相比,肿瘤样本中THBS2和SPP1的蛋白表达升高(见封三,图5Ⓐ~Ⓓ),与转录组数据发现的结果一致。对ULCAN中蛋白质质谱数据的研究证实了正常和肿瘤组织中THBS2和SPP1的丰度差异(见封三,图5Ⓔ、Ⓕ)。总之,这些蛋白质组学数据集证实了THBS2和SPP1在结直肠癌标本中的上调。

3 讨论

结直肠癌仍然是全球范围内的重大健康挑战,其发病率在所有癌症中位居第3位。近年来,免疫治疗(如抗PD-1单抗)和靶向治疗(如EGFR抑制剂联合化疗)等新兴治疗手段为结直肠癌的治疗带来了新的希望,但结直肠癌仍然是导致癌症相关死亡的主要原因。深入解析肿瘤微环境动态调控网络对于开发新型治疗靶点至关重要。

本研究综合采用多种生物信息学方法,分析了结直肠癌组织的Bulk和单细胞转录组学数据,探讨了结直肠癌进展过程中的转录组动态变化,并识别出肿瘤进展过程中呈现相似表达特征的多个基因簇。值得注意的是,Mfuzz算法揭示了一个基因表达呈持续上升趋势的基因簇4,基因簇4包含大量ECM相关基因,表明ECM相关基因的表达变化与结直肠癌的进展密切相关,且既往文献也报道了结直肠癌的进展和患者预后与ECM组成变化密切相关。此外,在通常被认为是癌前病变的结肠息肉转录组数据集中,本次研究同样发现基因簇4中的基因表达也呈现持续上调趋势。以上结果表明ECM相关成分可能在肿瘤发生及进展过程中发挥重要作用。

对基因簇4进行的功能富集分析显示,该基因簇显著富集于ECM重塑、PI3K-Akt信号通路及MAPK通路等关键生物学过程。这些发现既印证了基因簇4在结直肠癌进展过程中的重要性,同时也与既往文献研究结果相一致。从分子机制上而言,这些通路通过调控细胞增殖、凋亡抑制和迁移侵袭等生物学行为,凸显了靶向这些通路在结直肠癌治疗中的价值。

对基因簇4的蛋白质-蛋白质相互作用网络分析揭示了2个主要的基因功能群,其中红色基因群与ECM相关,而绿色基因功能群则由与癌症相关的信号通路和肿瘤进展机制密切相关的基因组成。ECM不仅为肿瘤细胞提供结构支持,还调节细胞间及细胞-ECM相互作用。癌细胞和肿瘤相关的基质细胞可能利用ECM重塑来培育促肿瘤环境,从而促进肿瘤发生和侵袭。基于互作网络图,本研究揭示了几个潜在的关键ECM基因,包括多种胶原成分,如COL9A1、COL9A3、COL10A1、COL11A1和COL12A1。这些基因编码类型Ⅸ、Ⅹ、Ⅺ和Ⅻ胶原蛋白,它们是ECM的基本结构成分。

值得注意的是,先前的研究表明COLPA3和COL10A1等胶原蛋白基因与胃癌的进展和转移相关。例如,编码Ⅸ型胶原α3链的COL9A3的丰度与胃癌进展正相关。此外,COL9A3在体外实验和体内模型均被认为是USP3致癌活性的关键介质;同时,编码Ⅹ型胶原α1链的COL10A1已被证明通过诱导上皮-间质转化促进胃癌的侵袭和转移。COL11A1和COL12A1被发现是肌成纤维细胞癌相关成纤维细胞(Cancer-associated fibroblasts,CAFs)的特异性标记物,CAFs是一种具有收缩和分泌特性的成纤维细胞,可影响肿瘤生长、血管生成、侵袭、转移和免疫逃逸。总体而言,现有证据表明这些ECM胶原蛋白基因可能通过多种分子机制驱动癌症演进,系统解析其调控网络及分子互作特征,有望为开发新的治疗靶点提供理论依据。

单细胞转录组分析揭示,结直肠癌微环境中关键基因的表达呈现显著细胞类型特异性。本研究筛选的前10个关键基因,包括THBS2、COL10A1及COL12A1等多在成纤维细胞中表达,而SPP1主要在巨噬细胞和单核细胞中主要表达。进一步通过Cellchat算法解析细胞互作网络,发现THBS和SPP1通路与这些关键基因显著相关。THBS通路由细胞外基质蛋白血栓反应蛋白家族(包括THBS1-5)介导,其配体受体对THBS2-CD47被鉴定为免疫细胞和上皮细胞之间的关键细胞通讯枢纽。机制层面上,THBS2通过重塑肿瘤微环境、影响CD47介导的信号传导,并增强基质重塑关键酶MMP-2的表达来协同影响肿瘤进展。一项关于肺癌的单细胞转录组研究表明,THBS2可作为癌症相关CAFs亚群的分子标记物,此CAFs亚群的丰度与免疫治疗耐药及患者治疗后生存期缩短密切相关。这一发现提示靶向THBS2或加强免疫治疗效果,其双重调控价值(生物标志物+治疗靶点)在肿瘤中具有重要转化意义。

单细胞测序和细胞-细胞相互作用分析结果显示,SPP1通路是与内皮细胞和免疫细胞相互作用的关键介质。SPP1基因编码分泌磷酸化蛋白1(Secreted phosphoprotein-1,SPP1),也称为骨桥蛋白,在多种生物过程中起着关键作用,包括细胞黏附、迁移、侵袭、血管生成、凋亡和免疫应答。既往研究报道了SPP1在多种癌症类型中过表达,如肺癌、卵巢癌、乳腺癌和结直肠癌。然而,SPP1在结直肠癌中的具体作用仍有待探索。本研究表明,SPP1基因编码的SPP1蛋白与免疫细胞和内皮细胞之间可能通过SPP1-CD44配体受体对产生相互作用。既往文献表明,该配体受体对可在肝内胆管癌和肺癌的肿瘤微环境中发挥免疫抑制作用,这可能对开发新的治疗策略具有重要意义。

除THBS2和SPP1核心调控轴外,本研究也关注到IBSP、LEF1及DLX3等分子的潜在作用。作为整合素结合唾液蛋白(Integrin-binding sialoprotein,IBSP),IBSP是SIBLING蛋白家族的一部分,该家族的特点是具有整合素结合RGD基序,并在多种生物过程中发挥作用,如骨形成、血管生成和细胞黏附。在临床预后方面,其表达与癌症患者预后不良及耐药性相关。目前,针对IBSP-整合素相互作用的靶向治疗策略已取得重要进展,通过抑制IBSP和整合素αvβ3之间的相互作用,可显著抑制肿瘤进展。然而,IBSP在结直肠癌中的具体作用仍未得到充分研究。本研究通过提供包括IBSP在内的可能与结直肠癌肿瘤进展密切相关的基因概述,为该领域的未来研究和治疗干预提供相关线索。

本研究存在一定局限性。首先,基于TCGA、GEO等公共数据库的回顾性分析可能无法完全覆盖结直肠癌的分子异质性特征;其次,尽管采用了多种生物信息学算法进行数据挖掘,但缺乏体内外实验验证关键分子机制。鉴于肿瘤微环境的复杂性,研究结果可能未能完全反映体内相互作用及其对结直肠癌进展的影响。未来的研究应包括基础研究和临床试验,以验证TBHS2及SPP1等分子在结直肠癌进展中的关键作用,并将其转化为实际的治疗策略。

4 结论

总之,本研究通过综合生物信息学分析,系统揭示了结直肠癌进展中的分子调控网络,特别是THBS2及SPP1在结直肠癌肿瘤微环境重塑中的关键作用。这些发现不仅为结直肠癌的分子分型提供了潜在标志物(如THBS2+CAFs亚群),也为开发靶向肿瘤微环境的联合治疗策略(如ECM靶向药物联合免疫检查点抑制剂)奠定了理论基础。未来研究需进一步通过类器官模型、PDX模型及临床试验验证上述发现的临床转化价值,从而推动结直肠癌精准治疗的发展。

参考文献【略】

平台合作联系方式

电话:010-51322375

邮箱:cmasurgery@163.com

普外空间订阅号

普外空间CLUB服务号

普外空间视频号

普外空间小助手

来源:普外空间

相关推荐