多组学-转录组RNA-seq 中Counts值,RPM,RPKM,FPKM,TPM

一个基因区域内read counts数目取决于基因长度测序深度

  • 基因长度影响:同一样本基因越长,随机打断得到的片段越多,该基因被测到概率越大,比对到该基因的reads越多
  • 测序深度影响:不同样本,样本的测序深度越高,同一基因被测到次数越多,比对到该基因的reads越多

Counts

比对到每个基因的reads有多少条,在转录组测序中,称为Count数。每个测序样品的起始RNA量不同,文库量不同,测序数据量不同。

RPM(Reads per million mapped reads)

10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
请添加图片描述

RPKM(reads per kilobase of transcript per million reads mapped) 单端

每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位),RNA-seq中用来表示基因表达量或丰度的方法。
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads
mapped reads (Millions) :某个样本的所有reads总和
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
请添加图片描述

FPKM(fragments per kilobase of transcript per million reads mapped) 双端

请添加图片描述
比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。
FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量而不管PE的两个reads是否能比对到同一个转录本上。

TPM(Transcripts Per Kilobase of exon model per Million mapped reads)

请添加图片描述
当计算TPM的时候,先对基因长度进行归一化,其次是测序深度的归一化。
请添加图片描述
请添加图片描述
TPM的现实意义是某给定基因的全长转录本出现的次数。


计算

Guess you like

Origin blog.csdn.net/geekfocus/article/details/119974033