1 min to read
GSEA分析
步骤
下载gsea-3.0.jar(依赖java 8)。测试数据下载。
打开软件,点击load data
,有三种方式可以加载数据。
-
cls文件,分组文件。
-
gct文件,基因表达量文件。
-
gmt文件,基因集文件(可选)。
点击Run GSEA
。选择各种参数,点击Run
。
-
Collapse dataset to gene symbols
,设置为True
,GSEA将数据集中的探针组折叠单个基因。 -
Permutation type
,如果表型样本数小于7选择Gene_set,大于7选择Phenotype。 -
基因集划分为以下8大类别:
- hallmark gene sets(H),来源于MSigDB基因集,有明确的生物学状态或过程;
- positional gene sets(C1),根据基因在染色体上的位置划分;
- curated gene sets(C2),包含了已知数据库,文献和专家支持的基因集信息;
- motif gene sets(C3),包含了miRNA靶基因和转录因子结合区域等基因集合;
- computational gene sets(C4),包含根据芯片预测出来的和癌症相关的基因集;
- GO gene sets(C5),包含了Gene Ontology对应的基因集合;
- oncogenic signatures(C6),包含已知条件处理后基因表达量发生变化的基因集;
- immunologic signatures(C7),包含了免疫系统功能相关的基因集合。
运行成功后,会在左下角面板status栏显示success。进入结果存放的文件夹,打开index.html查看结果细节。
结果分析
两个excel表分别是与两个表型正相关的基因集。表列名含义分别是:基因集所含基因个数(SIZE)、富集评分(ES)、归一化后富集评分(NES)、显著度(NOM p-val)、FDR校正后显著度(FDR q-val)、FWER校正后显著度(FWER p-val)、基因集中基因相关性排序最大序号(RANK AT MAX)。
两个表型分别列出了前20个基因集的富集详细信息。包括富集图和对应基因集各基因的详细信息。
富集图中,leading edge subset为ES峰值之前的基因亚集,它们对ES贡献最大;中间条码状图为该基因集核心基因标示图,最下方图片为排列序号上基因表达量与表型相关性的曲线图。RANK AT MAX为ES峰值对应的序号。ranking metric衡量的是基因与表型的相关性。
显著相关基因集中,基因的详细信息如下表。
参考资料
[01]. GSEA Tutorial
[02]. GSEA User Guide
Comments