生信分析技术——基因功能富集分析方法

摘要:基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中找到一类过表达的基因或蛋白。研究方法可分为三种:Over-Repressentation Analysis(ORA),Functional Class Scoring(

基因功能富集的主要方法

基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中找到一类过表达的基因或蛋白。研究方法可分为三种:Over-Repressentation Analysis(ORA),Functional Class Scoring(FCS)和Pathway Topology。ORA是目前应用最多的方法,GO富集分析和KEGG富集分析就是使用的这种方法;FCS这种方法应用于GSEA分析。

功能分析(functional analysis)/ 通路分析(pathway analysis)是将一堆基因按照基因的功能/通路来进行分类。即把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。

GO分析是将基因分门别类放入一个个功能类群,而pathway则是将基因一个个具体放到代谢网络中的指定位置。

Over-Repressentation Analysis(ORA)

过表征分析,即判断某类功能或分类和随机事件相比是否有更明显的趋势。统计方法包括Fisher精确检验、卡方检验等。Fisher精确检验是基于超几何分布计算的,它分为两种,分别是单边检验(等同于超几何检验)和双边检验。分析列联表中两个变量的关联,可以采取卡方检验。先假设两个变量之间没有关系(即目标基因集在特定GO term没有富集),如果p值小于0.05,说明原假设不成立,即目标基因集在特定GO term出现了富集。

在这个等式中,N是背景分布中基因的总数,M是该分布中被注释到感兴趣基因集的基因的数量,n是感兴趣基因列表的大小,k是该列表中被注释到基因集的基因的数量。默认情况下,背景分布是所有带有注释的基因。p值应调整为多次比较。

ORA富集分析软件和方法

clusterProfiler

clusterProfiler,它支持ORA和FCS两类算法。函数为:enrichGO, gseGO: GO富集分析;enrichKEGG, gseKEGG: KEGG富集分析;enrichDAVID: DAVID富集分析。

DAVID

是由美国Leidos 生物医学研究公司的LHRI团队开发的一个在线基因注释及功能富集网站。

富集结果表格大致为这样

第一列:ID,也就是富集通路的编号(GO:0010222);

第二列:Description,也就是富集通路的名称;

第三列:GeneRatio,要富集的基因中在对应通路中的比例;

第 4 列:BgRation,对应通过的基因在全基因组注释中的比例;

第 5,6,7 列:都是统计检验的结果;

第 8 列:geneID,也就是富集到基因的名字;

第 9 列是 Count,也就是富集到的基因数目。

其他信息

RichFactor:富集因子,是指感兴趣基因列表中属于这个term的基因的数量/背景基因集中富集在这个term中所有基因的数量。

Fold enrichment :富集倍数 GeneRatio / BgRatio

Gene Percent(%):感兴趣基因列表属于这个term的基因的数量占感兴趣基因列表所有基因数量的百分比

基因集富集分析

Gene Set Enrichment Analysis(基因集富集分析)用来评估一个预先定义的基因集S(已知功能的基因集)基因在与表型相关度排序的基因列表L(按照logFC、Signal to Noise Ratio等排序的基因列表)中的分布趋势(是随机分布,还是主要分布在顶部或底部),从而判断其对表型的贡献。

GSEA确定一个预先定义的基因集,比如某个KEGG通路/GO条目中的基因集在实验组和对照组中呈现出一致的上调或者下调趋势。

GSEA富集分析方法

富集分数enrichment score(ES)代表集合S在排序列表L的顶部或底部被过表达的程度。这个分数是通过遍历列表L来计算的,当遇到一个在S中的基因时增加一个running-sum statistic当遇到的基因不在S中时减少统计量。增量的大小取决于基因统计(例如基因与表型的相关性)。

ES为random walk中遇到的与零的最大偏差(maximum deviation from zero)。GSEA的那条曲曲折折的线就是通过不断的加分减分做出来的,图中的每一条垂直线表示基因集S中一个基因。

利用置换检验(permutation test)计算ES的p值。对基因列表L的gene labels进行重新排列(permute),并为排列后的数据重新计算基因集的ES(重复1000次),从而为ES生成一个null distribution。然后相对于这个零分布计算观察到的ES的p值。并使用FDR调整计算q值。

转载自简书博主笺牒九州的怪咖

来源:小周讲科学

相关推荐