讲座4:突变特征分析理论
4.1 突变特征概念
突变特征定义
突变特征(Mutational Signature):不同的突变过程产生独特的突变类型组合,这些特征性的模式被称为突变特征。
突变过程的来源
体细胞突变存在于人体所有细胞中,并贯穿一生。突变过程的来源包括:
- DNA 复制错误:复制机制的内在轻微不忠实性
- 外源诱变剂:紫外线、化学物质等外部因素
- 内源诱变剂:体内代谢产物等内部因素
- 酶促修饰:DNA 的酶促修饰过程
- DNA 修复缺陷:缺陷 DNA 修复机制
突变特征的生物学意义
- 反映 DNA 损伤的具体机制
- 揭示环境因素的影响
- 指导肿瘤病因学研究
- 辅助肿瘤分类和诊断
- 预测治疗响应
4.2 突变特征分类
主要突变特征类型
| 类型 | 全称 | 描述 | 特征数量(COSMIC) |
|---|---|---|---|
| SBS | Single Base Substitution | 单碱基替换 | 96种(6×4×4) |
| DBS | Double Base Substitution | 双碱基替换 | 多种组合 |
| ID | Small Insertion/Deletion | 小插入缺失 | 多种类型 |
| CN | Copy Number | 拷贝数变异 | 多种模式 |
SBS 特征详解
SBS 特征是最常用的突变特征类型。
SBS 96 分类:
将单碱基替换按以下方式分类:
- 6 种替换类型:C>A, C>G, C>T, T>A, T>C, T>G
- 4 种上下文碱基:突变位点前后各一个碱基(16种组合)
- 总数:6 × 16 = 96 种分类
SBS 分类示意图:
5'碱基 3'碱基
↓ ↓
序列:... A C T G ...
↑ ↑
突变位点
C>T 突变在 ACT 上下文中 → A[C>T]G 类别
常见 SBS 特征示例
| 特征编号 | 可能病因 | 特点 |
|---|---|---|
| SBS1 | 自发性脱氨 | 年龄相关,C>T in CpG |
| SBS2 | APOBEC | C>T/G 在 TpC 上下文 |
| SBS4 | 吸烟 | C>A 突变为主 |
| SBS7 | UV照射 | C>T 突变为主 |
| SBS13 | APOBEC | 类似 SBS2 |
| SBS17 | 不明 | T>G 突变 |
4.3 突变特征分析方法
两类主要分析策略
1. De novo 特征提取(从头提取)
- 不依赖已知特征
- 从数据中自动发现新特征
- 使用非负矩阵分解(NMF)等方法
2. 特征拟合(Refitting)
- 将突变数据拟合到已知特征
- 计算各已知特征的贡献比例
- 便于与 COSMIC 数据库比较
方法比较
| 方面 | De novo | Refitting |
|---|---|---|
| 依赖性 | 不依赖已知特征 | 需要已知特征参考 |
| 新发现 | 可发现新特征 | 只能识别已知特征 |
| 可解释性 | 需后续比对解读 | 直接可解读 |
| 适用场景 | 探索性研究 | 病因分析、诊断 |
NMF 分解原理
非负矩阵分解(NMF)是突变特征提取的核心方法。
数学原理:
将突变矩阵 M 分解为两个非负矩阵:
\[M \approx W \times H\]
- M:样本×突变类型的突变计数矩阵
- W:样本×特征的贡献矩阵
- H:特征×突变类型的特征谱矩阵
参数选择:
- 特征数量 N 的选择
- 稳定性评估
- 误差评估
4.4 COSMIC 突变特征数据库
数据库介绍
COSMIC(Catalogue Of Somatic Mutations In Cancer)突变特征数据库由 Sanger Institute 维护。
网址:https://cancer.sanger.ac.uk/signatures/
数据库内容
- 所有已知突变特征的谱图
- 特征的生物学病因解释
- 特征在不同癌症类型中的分布
- 特征分析的教程和工具
特征命名规范
- SBS + 数字:单碱基替换特征
- DBS + 数字:双碱基替换特征
- ID + 数字:插入缺失特征
- CN + 数字:拷贝数特征
4.5 Sigminer 分析流程
Sigminer 简介
Sigminer 是由王诗翔开发的突变特征分析工具,提供了完整的分析流程。
核心功能:
- 数据读取和预处理
- De novo 特征提取
- 特征拟合分析
- 结果可视化
分析流程概览
原始数据 → 突变矩阵构建 → 特征提取/拟合 → 结果可视化 → 生物学解读
Sigminer 使用步骤
步骤1:数据读取
library(sigminer)
# 从 MAF 文件读取
maf_file <- "sample.maf"
sig_data <- read_maf(maf_file)
# 或从 maftools MAF 对象转换
laml.maf <- system.file("extdata", "tcga_laml.maf.gz", package = "maftools")
laml <- read.maf(maf = laml.maf)
sig_input <- sig_input(laml)步骤2:突变矩阵构建
# 构建突变计数矩阵
mt_matrix <- create_mut_matrix(sig_data)
# 查看矩阵维度
dim(mt_matrix)步骤3:De novo 特征提取
# 使用 NMF 提取特征
sig_extract <- sig_extract(mt_matrix, n_sig = 2:10)
# 查看最佳特征数
sig_extract$best_n步骤4:特征拟合
# 拟合到 COSMIC 已知特征
sig_fit <- sig_fit(mt_matrix, signature = "cosmic")
# 查看拟合结果
sig_fit$result步骤5:结果可视化
# 绘制特征谱图
show_signature_profile(sig_extract)
# 绘制贡献分布图
show_signature_contribution(sig_extract)
# 绘制样本贡献热图
show_signature_heatmap(sig_extract)4.6 结果解读指南
特征谱图解读
特征谱图展示每个特征在各突变类型上的贡献。
解读要点:
- 高峰位置反映主要突变类型
- 与 COSMIC 已知特征比对
- 考虑生物学背景信息
特征贡献解读
每个样本的特征贡献反映该样本经历的不同突变过程。
解读要点:
- 主要贡献特征反映主要病因
- 年龄相关特征(SBS1)普遍存在
- 特殊特征反映特定暴露或机制
生物学意义推断
根据已知特征的病因信息推断:
- SBS1/SBS5:年龄相关,时钟样特征
- SBS2/SBS13:APOBEC活性
- SBS4:吸烟
- SBS7:UV暴露
- SBS17:化疗药物等
4.7 突变特征应用场景
病因学研究
- 识别致癌因素
- 环境暴露评估
- 肿瘤预防指导
肿瘤分类
- 肿瘤亚型划分
- 分子诊断辅助
- 预后预测
治疗决策
- 化疗响应预测
- DNA修复缺陷识别
- 精准治疗指导
研究前沿
- 新特征发现
- 特征演化研究
- 多组学整合分析
本讲小结
本讲座介绍了突变特征分析的理论基础:
- 突变特征的定义和生物学意义
- 突变特征的分类体系(SBS、DBS、ID、CN)
- De novo 和 Refitting 两类分析方法
- NMF 分解的数学原理
- COSMIC 突变特征数据库
- Sigminer 分析流程
- 结果解读指南
课后思考题:
- 如何根据特征谱图判断突变特征的可能病因?
- De novo 和 Refitting 分析各自适用于什么场景?
- 变特征分析如何为肿瘤精准治疗提供依据?