Normalization overview(代谢组学数据)

  • The normalization procedures are grouped into three categories.
  • The sample normalization allows general-purpose adjustment for differences among sample.
  • Data transformation and scaling are two different approaches to make individual features more comparable. Use one or combine them to achieve better results.

Sample normalization

在样本间做数据标准化非常重要,一般标准化后的数据可以得到正态分布的数据集。代谢组学数据标准化方法大致三种。内标标准化(样品中加入内标)。基于样品本身(均值,中位值,总和等 校正)。QC标准化。
在这里插入图片描述

  • 内标标准化:内标标准化是在代谢物提取前或提取后,在样品中加入一个或多个内标物,然后用样品中的所有代谢物对应的峰面积 (Area i )以该样品中对应的内标物峰面积(Area 内),得到一个相对含量值。由于加入到每个样品中的内标物含量相等,所以在一定程度上能够将代谢物含量校准到加入内标时刻的状态。在提取前加入内标,则可以通过内标来减小提取过程中所造成的样品损失等影响。但是内标在校准由仪器产生的影响方面略显不足,在减小来自仪器平台的影响的时候,仍需要联合其他的方式一起运用。
  • Normalization by sum:MetaboAnalysis 推荐方式。某些feature的数值是否占比太大,noramlization by sum基本原理是把绝对值浓度转换成样本中占比来计算。但feature有一个H1浓度明显整体偏大,由此使其他样本但占比更小,太小但数据件差别就被模糊了,效果不好。总和标准化说明的是每个代谢物占样品中总代谢物含量比例。具体方法是将每个样品中所有代谢物的峰面积相加,得到一个样品代谢物含量的总和(Area总)。然后用每个代谢物含量(Area)除以这个总和,由于得到的数值会非常小,可以在此基础上,再乘以一个常数1000,这也叫做常数标准化。这样一来,所有样品中的代谢物含量被标准化到了同一个值。需要注意的是:这个方法的前提是总的代谢物浓度在样品之间没有差异
  • Normalization by median
  • Quantile normalization:四分数标准化方法

Data transformation

  • log transformation

Data scaling

把数据压缩到一个范围内。

  • Auto scaling:MetaboAnalysis4.0推荐,mean-centered and divided by the standard deviation of each variable。
  • Range scaling
  • Pareto scaling
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/geekfocus/article/details/118752785