数据特征归一化/标准化方法

其他 2018-11-16 12:11:05 阅读次数: 0

归一化/标准化定义

归一化：就是将训练集中数值特征的值缩放到0和1之间。公式如下
标准化：就是将训练集中数值特征的值缩放成均值为0，方差为1的状态。公式如下
需要先计算出均值和标准差，下面是标准差的计算公式

μ表示均值，x*表示标准化的表达式

优点

加快了梯度下降求最优解的速度。

例子如下，左图代表没处理过的数据，最优解的求值可能会比较缓慢，例子如下，左图代表没处理过的数据，最优解的求值可能会比较缓慢，而右图是归一化后的，明显收敛速度更快。
在这里插入图片描述

提升模型精度

例如，在KNN类算法中。我们需要计算每个点与分类点之间的距离，当我们没有进行归一化操作的时候，取值范围大的特征占据主导因素，导致其他特征的影响极小，这样会影响到最后的结果。

什么情况下必须进行标准化/归一化？

当你的损失函数，有L1或者L2惩罚项时，必须使用标准化/归一化，因为不用正则时，我们的损失函数只是仅仅在度量预测与真实的差距，加上正则后，我们的损失函数除了要度量上面的差距外，还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。
Kmeans，KNN一些涉及到距离有关的算法，或者聚类的话，都是需要先做变量标准化的。
调用SVM的RBF内核和PCA算法

怎么进行标准化/归一化？

这里我们引用sklearn中自带的数据，来进行操作
导入数据

from sklearn.datasets import load_iris
iris = load_iris()
iris.data

标准化

from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(iris.data)

归一化

from sklearn.preprocessing import MinMaxScaler
MinMaxScaler().fit_transform(iris.data)

另外，我们要先拆分出test集，不要在整个数据集上做标准化，因为那样会将test集的信息引入到训练集中，这是一个非常容易犯的错误！

猜你喜欢

转载自blog.csdn.net/weixin_43172660/article/details/83826051

数据特征归一化/标准化方法

数据归一化,标准化的几种方法

数据的标准化，归一化方法总结

python 数据归一化/标准化方法与代码（离差标准化，log归一化，标准化，比例归一化，反正切归一化）

线性回归求解方法比较及数据归一化标准化的方法及作用

数据归一化（数据标准化）的优点和方法

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总

特征归一化/标准化

机器学习数据预处理-标准化/归一化方法

数据标准化/归一化

数据归一化（标准化）

数据归一化（标准化）

数据归一化/标准化

数据标准化、归一化

特征工程-数据归一化和标准化

python基础编程：使用sklearn进行对数据标准化、归一化以及将数据还原的方法

特征工程 1：归一化和标准化

特征工程之归一化及标准化

特征工程的归一化和标准化

关于特征的归一化与标准化

特征缩放 | 归一化和标准化 (下)

特征缩放 | 归一化和标准化（上）

为什么要做特征归一化/标准化？

为什么要做特征的归一化/标准化？

特征工程：归一化与标准化

数据去量纲化（归一化与标准化）

数据标准化的方法

数据标准化方法

数据标准化（归一化）处理

数据的标准化和归一化问题

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)