# 生物信息学中的常见统计量

# logFC

在差异表达分析中,logFC(对数折叠变化,Log Fold Change)用于描述基因在不同实验条件下表达水平的变化情况。

# logFC 的底数

在多数基因表达分析工具(包括 limma 包)中,logFC 通常是以 2 为底的对数折叠变化。即 logFC = log2 (FC),其中 FC 是 Fold Change(折叠变化)。

# logFC 的计算

logFC 的计算方法如下:

  1. 计算 Fold Change(FC)

    • Fold Change 是实验组和对照组之间表达水平的比值。假设在实验组中某基因的表达水平为 E,且在对照组中的表达水平为 C,那么 FC = E / C。
  2. 取对数(log2)

    • 为了对表达变化进行对称化处理,我们对 Fold Change 取以 2 为底的对数:logFC = log2 (E / C)。
    • 这使得当基因在实验组中的表达上调时,logFC 为正值;当表达下调时,logFC 为负值。

# logFC 的含义

logFC 表示在不同条件下(如对照组和实验组)基因表达水平的对数变化:

  • 正值:表示基因在实验组中的表达水平相对于对照组上调。例如,logFC = 1 表示该基因在实验组中的表达水平是对照组的 2 倍(log2 (2) = 1)。
  • 负值:表示基因在实验组中的表达水平相对于对照组下调。例如,logFC = -1 表示该基因在实验组中的表达水平是对照组的 1/2(log2 (1/2) = -1)。
  • 零值:表示基因在实验组和对照组中的表达水平没有变化(log2 (1) = 0)。

# 简单的例子

  1. 假设某基因在对照组中的表达值为 10,在实验组中的表达值为 40:

    1. 计算 Fold Change

      FC=4010=4FC = \frac{40}{10} = 4

    2. 计算 logFC

logFC=log2(4)=2logFC = \log_2(4) = 2

这表示该基因在实验组中的表达水平是对照组的 4 倍,logFC 为 2。

  1. 假设某基因在对照组中的表达值为 20,在实验组中的表达值为 5:

    1. 计算 Fold Change

      FC=520=0.25FC = \frac{5}{20} = 0.25

    2. 计算 logFC

logFC=log2(0.25)=2logFC = \log_2(0.25) = -2

这表示该基因在实验组中的表达水平是对照组的 1/4,logFC 为 -2。

# logFC 在差异表达分析中的应用

logFC 帮助我们量化和解释基因在不同实验条件下表达水平的变化。通过 logFC,我们可以方便地识别上调或下调的基因,并进一步进行生物学意义的解读和功能分析。

# t 统计量

在差异表达分析中,t 统计量(T-statistic)是一个用于检验基因在不同实验条件下表达水平是否存在显著差异的统计量。它来源于经典的 t 检验,主要用于判断两个组之间均值的差异是否显著。

# t 统计量的计算

t 统计量通常通过以下公式计算:

t=Xˉ1Xˉ2SEt = \frac{\bar{X}_1 - \bar{X}_2}{SE}

其中:

  • Xˉ1\bar{X}_1Xˉ2\bar{X}_2 分别表示两个组(如实验组和对照组)中基因表达水平的均值。

  • (SE) 表示这两个均值差异的标准误(Standard Error),计算方法为:

    SE=s12n1+s22n2SE = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

    其中 s12s_1^2s22s_2^2 分别表示两个组中基因表达水平的方差,n1n_1n2n_2 分别表示两个组的样本数。

# t 统计量的含义

t 统计量表示在不同实验条件下基因表达水平的差异相对于其变化范围(误差)的大小。t 值越大,表示两组之间的差异越显著。根据 t 统计量,可以进行显著性检验,通常是通过计算 P 值来判断差异是否显著。

# 简单的例子

假设我们有一个基因在对照组和实验组中的表达数据如下:

对照组(组 1):[10, 12, 11, 13, 12] 实验组(组 2):[20, 22, 19, 23, 21]

  1. 计算均值

    • Xˉ1=10+12+11+13+125=11.6\bar{X}_1 = \frac{10 + 12 + 11 + 13 + 12}{5} = 11.6
    • Xˉ2=20+22+19+23+215=21\bar{X}_2 = \frac{20 + 22 + 19 + 23 + 21}{5} = 21
  2. 计算方差

    • s12=(1011.6)2+(1211.6)2+(1111.6)2+(1311.6)2+(1211.6)251=1.3s_1^2 = \frac{(10-11.6)^2 + (12-11.6)^2 + (11-11.6)^2 + (13-11.6)^2 + (12-11.6)^2}{5-1} = 1.3
    • s22=(2021)2+(2221)2+(1921)2+(2321)2+(2121)251=2.5s_2^2 = \frac{(20-21)^2 + (22-21)^2 + (19-21)^2 + (23-21)^2 + (21-21)^2}{5-1} = 2.5
  3. 计算标准误

    • SE=1.35+2.55=0.26+0.5=0.760.87SE = \sqrt{\frac{1.3}{5} + \frac{2.5}{5}} = \sqrt{0.26 + 0.5} = \sqrt{0.76} \approx 0.87
  4. 计算 t 统计量

    • t=11.6210.8710.8t = \frac{11.6 - 21}{0.87} \approx -10.8

# t 统计量在差异表达分析中的应用

在差异表达分析中,t 统计量用于计算每个基因在不同条件下表达差异的显著性。通过比较每个基因的 t 值,可以判断哪些基因在实验条件下表现出显著的表达差异。

从差异表达分析结果中,t 统计量的值与 P 值密切相关:

  • 较大的 t 值(无论正负)通常对应较小的 P 值,表示基因在两个条件之间的表达差异显著。
  • 较小的 t 值则对应较大的 P 值,表示基因在两个条件之间的表达差异不显著。

# P.Value

P 值(P-Value)是统计检验中用于衡量观察到的结果在零假设下出现的概率。在差异表达分析中,P 值用于评估基因在不同实验条件下表达水平差异的显著性。

# P-Value 的计算

P 值的计算基于 t 统计量的值,通过查找 t 分布的累积分布函数(CDF)来确定。

具体步骤如下:

  1. 计算 t 统计量:如前所述,通过基因在两个组间的均值差异及其标准误来计算 t 值。
  2. 查找 t 分布表:利用计算得到的 t 值和相应的自由度,从 t 分布表中查找累积分布函数值,即 P 值。

# P-Value 的含义

P 值表示在零假设(即基因在两个条件下的表达没有显著差异)成立的情况下,观察到至少与实际数据一样极端的结果的概率。较小的 P 值(通常小于 0.05)表示我们有理由拒绝零假设,认为基因在不同条件下的表达差异显著。

# Adjusted P-Value/FDR/Q-Value

调整后的 P 值是通过对多个假设检验进行校正后得到的 P 值,以控制整体的假阳性率(FDR),有时也被称为 q 值。在基因表达分析中,由于同时检验了成千上万个基因,单纯使用原始 P 值可能会导致过多的假阳性结果。

# 调整 P 值的计算

调整 P 值的方法有多种,常用的包括 Benjamini-Hochberg 方法、Bonferroni 校正等。

limma 包中,通常使用的是 Benjamini-Hochberg 方法,其步骤如下:

  1. 对所有基因的原始 P 值进行排序。

  2. 计算每个基因的调整 P 值:

    adj.P.Vali=min(1,Pimi)\text{adj.P.Val}_i = \min\left(1, \frac{P_i \cdot m}{i}\right)

    其中,PiP_i 为第 i 个基因的原始 P 值,mm 为检验的总基因数,ii 为该基因在排序后的位置。

  3. 调整后的 P 值控制了 FDR(False Discovery Rate,假发现率)。

# 调整 P 值的含义

调整后的 P 值表示在所有检验中,预期的假阳性结果所占比例。较小的调整 P 值(通常小于 0.05)表示基因在不同条件下的表达差异显著,并且这种显著性在多个检验中也具有统计学意义。

# 与 P-Value 的关系

  • P 值:单个基因的显著性检验结果,不考虑多重检验问题。
  • 调整后的 P 值:通过调整 P 值控制整体假阳性率的方法,使得结果在多个检验中仍具有统计学意义。
  • FDR(假发现率):调整后的 P 值方法之一,Benjamini-Hochberg 方法即为控制 FDR 的方法。

调整后的 P 值(adj.P.Val)通常就是指 FDR 控制后的 P 值。在多重假设检验中,FDR 调整的 P 值更为保守,能够有效控制假阳性结果的比例。

通过调整后的 P 值,我们可以更准确地解释基因表达数据的显著性和可靠性。

# B 统计量

# B 统计量的计算方法

B 统计量(B-Statistic),在差异表达分析中也称为 “对数概率比”(log-odds),是通过贝叶斯统计方法计算的,用于估计基因为差异表达基因的概率。在 limma 包中,B 统计量计算如下:

  1. 贝叶斯检验:B 统计量的计算基于贝叶斯检验,将 t 统计量和实验设计的先验信息结合起来,得出基因为差异表达基因的对数概率比。

  2. 计算公式

    B=log(P(差异表达基因数据)P(非差异表达基因数据))B = \log \left( \frac{P(\text{差异表达基因} | \text{数据})}{P(\text{非差异表达基因} | \text{数据})} \right)

    其中,P(差异表达基因数据)P(\text{差异表达基因} | \text{数据}) 是在给定数据的条件下基因为差异表达基因的概率,而 P(非差异表达基因数据)P(\text{非差异表达基因} | \text{数据}) 是在给定数据的条件下基因为非差异表达基因的概率。

具体的计算涉及贝叶斯方法中使用的先验概率和似然函数的具体形式, limma 包通过其内部算法实现了这些计算。

# B 统计量的含义

B 统计量的值表示基因为差异表达基因的对数概率比。其含义如下:

  • 正值:表示基因更有可能是差异表达基因。B 值越大,差异表达的可能性越高。
  • 负值:表示基因更不可能是差异表达基因。B 值越小,差异表达的可能性越低。
  • 零值:表示基因为差异表达基因和非差异表达基因的概率相等。

B 统计量是基于贝叶斯统计方法计算的对数概率比,用于估计基因在不同条件下是否为差异表达基因。较高的 B 值表示该基因更有可能是差异表达基因,反之亦然。