归一化(normalization)

“归一化”一词在统计中非正式地表达方式,因此术语“归一化数据”可以具有多种含义。在大多数情况下,对数据进行规范化时,您将消除数据的度量单位,从而使您可以更轻松地比较不同位置的数据。标准化数据的一些更常见的方法包括:

  1. 使用z得分或t得分转换数据。这通常称为标准化。在大多数情况下,如果统计教科书在谈论标准化数据,那么这就是他们可能使用的“标准化”的定义。 将数据重新缩放为0到1之间的值。这通常称为要素缩放。实现此目的的一种可能公式是: x_new = (x-x_min)/(x_max-x_min)
  2. 标准化残差:回归分析中使用的比率会迫使残差变成正态分布的形状。
  3. 使用公式μ/σ归一化矩。
  4. 将向量(在线性代数中)规范为一的范数。从这个意义上说,规范化是指对向量进行变换,使其长度为1。

大部分情况下归一化就是使得所有的数字变成0-1之间的数,所有参数都必须具有相同的正标度。但是,数据集中的 异常值 将丢失。

标准化(standrization)

归一化通常是指将变量缩放为0到1之间的值,而标准化则将数据转换为均值为零且标准偏差为1。这种标准化称为z得分,通过μ/σ处理

x_new = (x - x_mean)/x_std

计算z得分就是标准化后的数据

总结

大部分数据分析或者统计分析情况下都请使用标准化,因为归一化会丢失掉异常值。