nature文章推荐的能区分转录组数据性别的基因列表

360影视 日韩动漫 2025-06-27 12:30 1

摘要:我们马拉松授课生物信息学入门环节有小伙伴问到了如果不知道样品的性别能根据一个表达量矩阵来推断吗,恰好我好久以前看到过一个nature文章:《Immune evasion before tumour invasion in early lung squamous

我们马拉松授课生物信息学入门环节有小伙伴问到了如果不知道样品的性别能根据一个表达量矩阵来推断吗,恰好我好久以前看到过一个nature文章:《Immune evasion before tumour invasion in early lung squamous carcinogenesis》给出来了一些关键的性染色体基因。这些基因之所以能够在转录组表达量矩阵中区分样本的性别,主要是因为它们位于性染色体上,其表达模式在男性和女性之间存在显著差异。这种差异不仅有助于性别鉴定,还可以为性别相关的疾病研究提供重要线索。

在附件的 Extended Data Fig. 8 | Quality control of microarray data. 的panel C 提供了这样的区分效果:

能区分转录组数据性别的基因列表

这些基因之所以能够在转录组表达量矩阵中区分样本的性别,主要是因为它们位于性染色体(X 染色体和 Y 染色体)上,其表达模式在男性和女性之间存在显著差异。以下是一些具体原因:

1. 性染色体的遗传差异

2. 基因表达的性别特异性

3. 具体基因示例

实战案例

我把这些基因给了我们的学员,让大家找一下相关的数据集,有表达量矩阵也有性别信息的,这样的话可以跑出来检验效果。学员提供了 GSE159216 的检验相关,需要自己清洗一下 GSE159216 的GEO数据库资料,然后代码如下所示:

options(stringsAsFactors = F)
library(AnnoProbe)
library(GEOquery)
library(ggplot2)
library(ggstatsplot)
library(patchwork)
library(reshape2)
library(stringr)
getOption('timeout')
options(timeout=10000)
load('GSE159216/step1_output.Rdata')

gene_list <- c("ARSD", "CXorf15", "DDX3X", "HDHD1A", "KDM5C", "PNPLA4",
"RIBC1", "RPS4X", "KDM6A", "ZFX", "XIST", "ZFY",
"USP9Y", "UTY", "PRKY", "CYorf15A", "CYorf15B", "RPS4Y1", "NCRNA00185", "KDM5D")
cg = gene_list[gene_list %in% rownames(dat)]
library(pheatmap)
#tmp=dat[cg,]
n=t(scale(t(dat[cg,]))) # 'scale'可以对log-ratio数值进行归一化
n[n>2]=2
n[n< -2]= -2
n[1:4,1:4]
pheatmap::pheatmap(n,show_colnames =F,show_rownames = F)
group_list=pd$`gender:ch1`
ac=data.frame(group=group_list)
rownames(ac)=colnames(n)
F,show_rownames = T

annotation_col=ac)

可以看到,仅仅是肉眼就可以评估区分性别效果那个是非常棒啊!

区分性别效果那个是非常棒

而且,确实是有部分样品是例外,有多个可能性,比如他们恰好转录组质量不佳,所以性染色体上面的表达量信号不准确。或者因为是癌症样品,可能性染色体本身也有拷贝数变异这样的话也会影响性染色体上面的基因的表达量啦。当然了,如果大家的生物学背景足够深厚,这个现象本身就可以是一个科学问题,做一个课题,发一个文章!

当然可以!除了您提到的转录组质量不佳和性染色体拷贝数变异外,还有其他一些可能导致部分样本在性别鉴定上出现例外的情况:

1. 样本处理和实验误差

2. 肿瘤异质性

3. 基因表达调控的变化

4. 技术平台的限制

5. 个体差异

6. 样本污染

7. 数据质量问题

8. 其他因素

这些因素都可能导致部分样本在性别鉴定上出现例外情况。在实际研究中,建议通过多种方法验证样本的性别,如结合临床信息、其他生物学标志物等,以提高性别鉴定的准确性。

来源:博学的火车n0Rjo2

相关推荐