# 差异基因富集分析与 GSEA
在基因表达研究中,我们常常会遇到这样的问题:找到了一组有趣的基因,它们在某种条件下表现出不同的表达模式,但这些基因到底在干什么?它们有没有共同的作用?富集分析可以回答这些问题。
富集分析方法主要有两种:
- 传统差异基因富集分析(如 GO/KEGG 分析)
- GSEA(基因集富集分析)。
# 差异基因富集分析:聚焦在显著差异基因上
在传统的差异基因富集分析中,我们会先筛选出在两种条件下表达差异显著的基因(DEGs),然后分析这些差异基因的功能,看看它们集中在哪些生物过程、功能或通路上。这样我们可以很快找到疾病相关的功能,比如免疫应答、代谢通路等。
优点:
- 简单直观:聚焦于 “显著差异” 的基因,直接看哪些生物学功能有变化。
- 适合显著性差异:对于强烈条件下(比如药物刺激)的基因表达变化,传统差异富集分析效果显著,结果也容易解释。
缺点:
- 忽略微小变化:如果一个基因变化不明显,但在整体上却有潜在意义,它可能会被忽略。
- 依赖阈值:分析需要人为设定差异显著性的阈值,有时会导致信息丢失。
适用场景:
当基因表达变化显著,比如在药物处理或某些疾病状态下,我们可以使用这种方法方法。例如我们正在研究癌症细胞中哪些基因的表达变化特别明显,差异富集分析能够快速锁定显著变化的关键基因集和通路。
# GSEA:全面观察全基因排序
GSEA(基因集富集分析)是个更全面的分析方法。它不需要设置显著性阈值,而是把所有基因根据它们在两个实验条件下的表达差异排序,排在前面的基因是表达量高的,后面的表达量低。然后,GSEA 通过查看特定基因集(如一个通路中的所有基因)在整个排序列表中的位置,来判断基因集的分布是集中在前部(上调)还是后部(下调)。
优点:
- 捕捉整体趋势:GSEA 不依赖阈值,考虑了所有基因的排序信息,可以发现微小但有生物学意义的变化。
- 适合微弱信号:对于没有明显表达差异的情况,GSEA 能检测到生物学过程的全局性趋势。
缺点:
- 不适合显著性变化大:在表达差异特别显著的情况下,GSEA 可能不如传统方法高效。
- 计算量大:由于考虑了所有基因,计算过程复杂。
适用场景:
GSEA 尤其适用于那些基因变化不显著但整体上有趋势的情况。比如,我们想要研究两个细胞类型的微小差异,或想看在某种环境下的轻微基因表达变化,GSEA 就能帮我们发掘一些意想不到的 “集体行为”。
# 两者如何选择?
-
基因变化显著:如果实验条件导致基因表达量有明显变化(比如药物处理组对照组),传统的差异基因富集分析可以快速帮你发现关键通路。
-
基因变化微弱:如果基因变化不大,或者你不想设定具体的阈值限制,GSEA 可以帮助捕捉基因集的整体趋势,揭示潜在的生物学意义。
在实际研究中,它们常常是互补的工具。