# 非负矩阵分解分析连续细胞状态
在现代生物学研究中,理解细胞状态的多样性和连续性是揭示复杂生物过程的重要一步。
无论是肿瘤微环境中的细胞演化,还是发育过程中的细胞分化,细胞状态的变化通常不是离散的,而是表现为一种渐变的连续谱。
非负矩阵分解(Non-negative Matrix Factorization, NMF) 能够有效提取和解释基因表达数据中的连续细胞状态。本文将探讨 NMF 在分析连续细胞状态中的应用原理及其生物学意义。
# 非负矩阵分解(NMF)
NMF 是一种矩阵分解技术,用于将一个非负矩阵拆解为两个非负矩阵的乘积。形式上:
其中:
- 是原始数据矩阵,通常是基因表达矩阵(行表示基因,列表示样本)。
- 是基矩阵,表示一组表达程序,即基因的协同表达模式。
- 是系数矩阵,表示每个样本中各表达程序的权重。
NMF 的核心特性在于非负性约束,即 和 。这一特性非常适合处理基因表达等非负数据,且结果具有自然的生物学可解释性。
# 连续细胞状态
在许多生物系统中,细胞状态并不是严格的离散类别,而是一种连续的渐变关系。例如:
- 在肿瘤微环境中,肿瘤核心细胞可能呈现强烈的增殖状态,而浸润边界的细胞则逐渐表现为侵袭特性。
- 在发育过程中,干细胞可能逐步分化为不同类型的功能细胞,这些分化状态是连续变化的。
这种连续性在基因表达数据中表现为:
- 多个基因表达模式的线性组合。
- 不同样本中这些组合的权重连续变化。
# NMF 如何捕捉连续细胞状态?
# 数据表示与分解
通过 NMF 分解,原始的基因表达矩阵 被分解为 和 :
- :表示一组表达程序(基因协同表达的模式)。
- :表示每个样本中各表达程序的权重。
这种分解让每个样本的基因表达被表示为若干表达程序的线性组合,其权重(即 的列向量)反映了样本中不同细胞状态的混合程度。
# 稀疏性与非负性
NMF 的结果具有稀疏性,即每个样本中只有少量表达程序对基因表达有显著贡献。这种特性保证了每个样本被清晰地分解为少数核心状态的组合。此外,非负性约束确保了分解结果符合生物学意义(如基因表达水平不能为负)。
# 连续性的体现
矩阵的列向量表示样本中不同表达程序的权重:
- 如果某个样本主要由一个表达程序主导,则可以被看作一种离散状态。
- 如果某个样本的权重分布在多个表达程序上,并且这些权重在不同样本中连续变化,则说明这些样本处于连续细胞状态的渐变区。
# 生物学意义:从离散到连续的理解
传统的离散聚类方法(如 Leiden 聚类)能够将样本划分为明确的类别,但它无法捕捉细胞状态的渐变性。例如:
- 在肿瘤研究中,核心细胞和边界细胞可能被划分为不同的聚类,但两者之间的渐变过渡却被忽略。
- 在免疫研究中,活化的免疫细胞和抑制状态的免疫细胞之间的状态转换可能无法用单一聚类方法解释。
NMF 弥补了这一不足:
- 离散性:对于单一状态主导的样本,NMF 可以明确识别其核心特征。
- 连续性:对于多状态混合的样本,NMF 可以量化不同状态的贡献,并揭示状态之间的渐变关系。
# 应用案例:肿瘤微环境中的连续状态分析
在肿瘤研究中,NMF 被广泛用于揭示肿瘤组织中细胞状态的复杂性。以下是一个典型应用:
# 数据背景
研究者对肿瘤样本的空间转录组数据进行了 NMF 分解。原始基因表达矩阵包含了肿瘤核心区、浸润边界和周围正常组织的基因表达。
# 分解结果
- 表达程序(W):
- 程序 1:增殖相关基因高表达,可能对应于肿瘤核心细胞。
- 程序 2:侵袭相关基因高表达,可能对应于浸润性肿瘤细胞。
- 程序 3:免疫活化相关基因高表达,可能对应于免疫细胞的功能状态。
- 权重矩阵(H):
- 样本中权重的连续变化显示,从肿瘤核心到边界,增殖程序的权重逐渐减弱,而侵袭程序的权重逐渐增强。
# 生物学洞察
NMF 结果揭示了肿瘤细胞从核心增殖状态到边界侵袭状态的渐变过程,并且量化了免疫细胞在不同区域的活化程度。这为理解肿瘤微环境的动态特性提供了新视角。
# NMF 与离散方法的比较
特性 | NMF | 离散聚类(如 Leiden) |
---|---|---|
数据表示 | 线性组合的连续表示 | 离散类别分配 |
细胞状态的捕捉 | 连续状态的渐变 | 离散状态 |
生物学意义 | 解释细胞状态之间的过渡关系 | 强调类别的差异性 |
应用场景 | 分析复杂、异质性高的数据 | 分类明确、异质性低的数据 |