让您的科研更简单
    Make Your Research Easier

    服务电话: 400-1580-780  0571-86495259 
    Email:service@sinoprotein.com
    QQ:2533813840
    您当前的位置: 杭州ag8亚游集团生物技术有限公司 >>  行业动态 >>  GSEA(基因富集分析)软件使用
    联系我们

    杭州ag8亚游集团生物技术有限公司

    地址:浙江省杭州市西湖区西园八路11号数字信息产业园D座3层

    电话:0571-86495259
               400-1580-780
    邮箱:service@sinoprotein.com

    GSEA(基因富集分析)软件使用

    作者:admin 来源:未知 发布时间:2018-05-10 点击数:
    简介
    GSEA 全称 “Gene Set Enrichment Analysis ”,字面翻译过来 “基因集富集分析”,同样都是G开头的测序结果分析软件,正好与前一篇写的GO分析,存在相似的功能,但也有明显的差异。没有谁更好,就看你实际需要解决的问题更适用哪个软件进行操作。
    操作来讲,只需输入两部份数据文件和相应参数,点击 “Run”开始运行就可以了,具体操作以下会进行详细阐述,但先来讲讲该分析的原理部分。
     
    摘取GSEA原理简明理解版呈上:
    给定一个排序的基因表L和一个预先定义的基因集S (比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因,或同一GO注释下的基因),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。
    好的,原理就这样过去吧
     
    接下来,来谈谈GSEA的优点
    如GO分析这一类分析都侧重在于先筛选出差异基因,再分析功能这一分析逻辑,其过程中涉及到给出差异基因的一个明确的定义(阈值),这种方法存在一定主观性并且只能用于表达变化较大的基因,容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。
    而GSEA则不局限于差异基因,不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势即基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响,从而从数理统计上把数据与生物学意义很好地衔接起来,使得研究者们能够更合理地解读结果。
     
    说完优点,到了长篇阐述软件使用方法的时刻
    现在奉上官方下载网址: http://software.broadinstitute.org/gsea/downloads.jsp
    需要先注册登陆之后才能下载
    登陆之后的下载界面如下:

    选择合适的内存大小进行下载,安装运行软件之后的初始界面是这样的:

     
    准备好数据文件
    主要是2类文件,表达文件和说明文件
    1. 表达文件
    第一列为基因名字(名字与注释数据库一致,同为GeneSymbol或EntrezID或其它自定义名字),第一行为标题行,含样品名称信息;文件格式用tab键分割,保存为txt格式或gct格式文件。

    2. 说明文件
    6个样本,分为2组,分别为fresh和old,1永远是1

    导入两个文件

    导入成功并无误之后有界面填出,选“确定”就好
    选择运行的参数

    设置好参数后,点击正下方的run,耐心等待运行结束,结束后左侧显示success

    点击绿色字体的SUCCESS,可以查看整理好的统一结果,其结果文件也已经保存在本地电脑。
    其结果如下所示:

    其结果中最常见的图如下:

    它需要解释的部分如下:
    1:图最上面部分展示的是ES的值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集。
    2:图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置。
    3:最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。
    4:Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
    5:FDR GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05。