博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
RNA-Seq分析|RPKM, FPKM, TPM, 计算对比
阅读量:4959 次
发布时间:2019-06-12

本文共 951 字,大约阅读时间需要 3 分钟。

在分析了若干转录组之后发现,处理数据的时候最重要的不是技巧多么绚丽,你调包的能力有多么强。而是把基本的概念特别是统计和数学上的方法咬烂嚼吐,才是真正理解和掌握了分析数据的底层原理:

在RNA-Seq的分析中,对基因或转录本的read counts数目进行normalization是一个extremely essential的过程,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。

Thats to say,一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。

所以DE时,往往是在多个样本(样本来自不同组织、不同器官、不同个体、甚至做进化数据的时候是不同物种)中比较不同基因的表达量,如果不进行数据标准化,比较结果是没有意义的。

Therefore,我们需要标准化的two key factors 就是基因长度和测序深度,常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Trans Per Million)作为标准化数值,前两者都是DESeq2 package中的funcitons。但是实践证明,在样本差异过大或者需要更加精准的比较或者定量目标基因的表达量的时候,还是TPM最为准确和有效。

来源于YouTube的一张示意图: 

1、2、3样本total reads=35、45、106

RPKM=10/35/2=1.43 (如下图所示)

而TPM的有效性在于它的处理基因测序的深度和长度的顺序是不同的。

即先考虑基因长度,再是测序深度:

 

最后算出来的TPM=3.33

而再比对一下最后结果的total after normalized reads 

RPKM: 

TPM: 

当我们看到这个结果的时候,就应该马上想到每个样本的TPM的总和是相同的,这就意味着TPM数值能体现出certain样本比对上target基因的reads的比例,而这个比例的总和在不同样本之间是相同的,所以可以使得该数值可以直接进行样本间的比较

 

转载于:https://www.cnblogs.com/beckygogogo/p/9270698.html

你可能感兴趣的文章
Linux 连续运行多条命令
查看>>
iOS 常用的向上,向下取整, 四舍五入函数
查看>>
NOI2018Day2T1 屠龙勇士 set 扩展欧几里德 中国剩余定理
查看>>
深入浅出net泛型编程
查看>>
Android提高篇之自定义dialog实现processDialog“正在加载”效果、使用Animation实现图片旋转...
查看>>
股神小L
查看>>
maven中jar包的maven地址查询
查看>>
新浪通过短信验证码找回无法正常工作
查看>>
一年经验初探阿里巴巴前端社招
查看>>
SOAP WebService 和 RESTful WebService简述
查看>>
MyEclipse中spring MVC的配置
查看>>
Visual Studio 2012|TFS2012激活码
查看>>
Linux 基础命令
查看>>
Android程序目录简介
查看>>
集合去重复引入排序思想
查看>>
java 运行环境
查看>>
调试的时候 line not available!
查看>>
使用自定义 classloader 的正确姿势
查看>>
浏览器运行原理
查看>>
设计模式六大原则
查看>>