数据预处理方式（去均值、归一化、PCA降维）

其他 2018-09-11 16:18:50 阅读次数: 0

一.去均值

1.各维度都减对应维度的均值，使得输入数据各个维度都中心化为0，进行去均值的原因是因为如果不去均值的话会容易拟合。这是因为如果在神经网络中，特征值x比较大的时候，会导致W*x+b的结果也会很大，这样进行激活函数（如relu）输出时，会导致对应位置数值变化量太小，进行反向传播时因为要使用这里的梯度进行计算，所以会导致梯度消散问题，导致参数改变量很小，也就会易于拟合，效果不好。

右图为去均值之后的效果。

二.归一化

1.一种是最值归一化，比如把最大值归一化成1，最小值归一化成-1；或把最大值归一化成1，最小值归一化成0。适用于本来就分布在有限范围内的数据。

另一种是均值方差归一化，一般是把均值归一化成0，方差归一化成1。适用于分布没有明显边界的情况。

2. 进行归一化的原因是把各个特征的尺度控制在相同的范围内，这样可以便于找到最优解，不进行归一化时如左图，进行归一化后如右图，可发现能提高收敛效率，省事多了。

三.PCA/白化

1.PCA是指通过抛弃携带信息量较少的维度，保留主要的特征信息来对数据进行降维处理，思路上是使用少数几个有代表性、互不相关的特征来代替原先的大量的、存在一定相关性的特征，从而加速机器学习进程。（降维技术可单独讲）

PCA可用于特征提取，数据压缩，去噪声，降维等操作。

2.白化的目的是去掉数据之间的相关联度和令方差均一化，由于图像中相邻像素之间具有很强的相关性，所以用于训练时很多输入是冗余的。这时候去相关的操作就可以采用白化操作，从而使得:

1.减少特征之间的相关性

2.特征具有相同的方差（协方差阵为1）

3.举个白化的例子，如对于两个特征的关联分布如左图，可以看出特征组合点存在线性关系，此时我们进行白化后（特征向量的投影）可以变成右图的形式，无关联性。

而且白化因为进行了方差均一化，所以还可以提升训练速度。

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/82252480

数据预处理方式（去均值、归一化、PCA降维）

python数据预处理方式 :数据降维

机器学习数据预处理：数据降维之PCA

数据预处理之中心化（零均值化）与标准化（归一化）

数学基础-数据预处理-降维-PCA & SVD

机器学习-数据预处理02-PCA降维

数据预处理--归一化

数据预处理-归一化

数据预处理之归一化

数据归一化预处理

python之sklearn常见数据预处理归一化方式解析

用通俗易懂的方式讲解：数据预处理归一化(附Python代码)

Python数据预处理 - 归一化与标准化

数据预处理——归一化标准化

数据预处理之中心化和归一化

数据预处理之数据归一化

Python数据预处理--数据归一化

为什么图像预处理要用ImageNet的均值mean和方差std进行归一化？

特征工程（3）-数据预处理归一化

MATLAB数据预处理-归一化-mapminmax

数据预处理：数值特征归一化

数据预处理归一化详细解释

数据预处理--数据降维

python数据预处理：数据降维

数据预处理——数据降维

ML常用数据预处理方式

【Python数据预处理】归一化（按列减均值，除方差），标准化（按列缩放到指定范围），正则化（范数）

数据降维PCA

【火炉炼AI】机器学习001-数据预处理技术（均值移除，范围缩放，归一化，二值化，独热编码）

机器学习之数据预处理（均值移除、范围缩放、归一化、二值化、独热编码、标签编码）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)