转录组及可视化分析——样本间相关性绘图

摘要：读取Control，Model，P，T四个组别gene_count

数据的话我们采用的是送样测序公司反馈给我们的 gene_count 文件，格式如下：

gene_id： 基因 ID

gene_count： C1-T3 都是各个组的 gene count 数值

其他列一般我自己分析的话是不需要的。

我给大家提供了四种格式的数据，大家可以下载到本地使用或直接读取在线数据，就可以案例分析了。

链接： https://gitee.com/escibiu/bioinformatics/tree/master/transcriptomics

比如 xlsx 的数据，想要获取文件的链接，直接点击进去后，右击原始数据，复制链接即可

在线连接就拿到了：https://gitee.com/escibiu/bioinformatics/raw/master/transcriptomics/gene_count.xlsx，直接 read.xlsx 读取即可

R： 4.5.0

RStudio： 2025.05.0

1.首先加载需要的 R 包，这里我只读取 xlsx 格式数据，所以用到 openxlsx 包以及数据处理的 tidyverse 包

# 加载需要用的数据包library(openxlsx)library(tidyverse)

2.进行读取数据文件

# 读取测序原始文件# 读取Control，Model，P，T四个组别gene_count

3.计算样本间相关性

# 计算相关性r

4.使用热图来展示各个组间的相关性。很明显，从整体来讲，各个组间相关性没有明显的特征。表明各个组间整体差异不是很明显。

# 绘制热图library(pheatmap)pheatmap(r,# 是否显示列名show_rownames = TRUE,# 设置格子宽度cellwidth = 20,# 设置格子高度cellheight = 30,# 显示数字display_numbers = TRUE,# 字体大小，型号，是否加粗show_colnames = TRUE,fontsize = 12,font.family = "Arial",font.face = "bold",# 指定颜色color = colorRampPalette(c("#374E55FF","white","#B24745FF"))(50),filename = "1. 样本相关性热图.pdf",# 指定切分为几个分类cutree_rows = 3,cutree_cols = 3)

5.也可以不要聚类试试，方便观察组间和组内相关性

pheatmap(r,# 是否显示列名show_rownames = TRUE,# 设置格子宽度cellwidth = 20,# 设置格子高度cellheight = 30,# 显示数字display_numbers = TRUE,# 字体大小，型号，是否加粗show_colnames = TRUE,fontsize = 12,font.family = "Arial",font.face = "bold",# 指定颜色color = colorRampPalette(c("#374E55FF","white","#B24745FF"))(50),# filename = "1. 样本相关性热图.pdf",cluster_rows = FALSE,cluster_cols = FALSE)

6.也可以绘制相关性矩阵图

# 也可以绘制相关性矩阵图library(corrgram)corrgram(gene_count,# 样本文字大小cex.labels = 0.8,# 指定下方面板的形状，具体参数看下方注释lower.panel="panel.pts", # 指定上方面板的形状，具体参数看下方注释upper.panel="panel.cor", # 指定中间面板的形状，具体参数看下方注释diag.panel="panel.density",# 计算相关性的方法有"pearson", "spearman", "kendall"cor.method="pearson")