特征缩放 | 归一化和标准化（上） - 代码天地

特征缩放 | 归一化和标准化（上）

企业开发 2019-05-31 18:01:13 阅读次数: 0

什么是特征缩放:

　　就是将所有数据映射到同一尺度。如:

　　某训练集 x_train 为:

　　

(x_trian)

　　将其进行某种特征缩放之后,得到新的值:

　　

　　　　　　显然经过特征缩放之后，特征值变小了

为什么要进行特征缩放呢？

有些特征的值是有区间界限的，如年龄，体重。而有些特征的值是可以无限制增加，如计数值。

所以特征与特征之间数值的差距会对模型产生不良影响。如:

在该样本集中，由于量纲不同，模型受 '次数'特征所主导。因此如果没有对数据进行预处理的话

有可能带来偏差，难以较好的反应特征之间的重要程度。其实还有利于优化的其他原因

特征缩放的分类:

（不止这两种，但常用的为标准化）

1.先看一下归一化(min-max 缩放)

　通过归一化处理，将值映射到0-1之间的某个数值。

　公式:

　　X（i）为某个特征值、X(min)为这个特征的所有特征值的最小值、X(max)为这个特征

　　的所有特征值的最大值

　　也就是将（某个特征值减去特征最小值的差）除以（特征最大值减去特征最小值的差）

　　从而得到这个特征值归一化之后的数值。

　 Python简单实现:

import numpy as np

def min_max_scaler(X):
    '''归一化'''
    assert X.ndim == 2,'必须为二维数组'
    X = np.array(X,dtype=float)
    n_feature = X.shape[1]
    for n in range(n_feature):
        min_feature = np.min(X[:,n])
        max_feature = np.max(X[:,n])
        X[:, n] = (X[:,n] - min_feature) / (max_feature - min_feature)
    return X

x = np.random.randint(0,100,(25,4))
print(min_max_scaler(x))

'''

[[0.89247312 0.11494253 0.17857143 0.29347826]
[0.09677419 0.74712644 0.10714286 0.63043478]
[0. 0.87356322 0.95238095 0.67391304]

.......
[0.2688172 0.4137931 0.33333333 0.89130435]
[0.11827957 0.7816092 0.55952381 0.15217391]
[1. 0.57471264 0.70238095 0.45652174]
[0.16129032 1. 0.75 0.23913043]]

'''

　　sklearn中对应API: from sklearn.preprocessing import MinMaxScaler

　　

　　

　　

猜你喜欢

转载自www.cnblogs.com/qiutenglong/p/10956165.html

特征缩放 | 归一化和标准化（上）

特征缩放 | 归一化和标准化 (下)

特征归一化/标准化

特征工程-数据归一化和标准化

特征工程 1：归一化和标准化

特征工程的归一化和标准化

特征缩放和标准化

【读书笔记】Feature Scaling （特征缩放）：归一化、标准化、中心化

数据特征归一化/标准化方法

特征工程之归一化及标准化

关于特征的归一化与标准化

为什么要做特征归一化/标准化？

为什么要做特征的归一化/标准化？

特征工程：归一化与标准化

[机器学习] 数据特征标准化和归一化

[机器学习] 数据特征标准化和归一化你了解多少？

数据特征的标准化和归一化你了解多少？

轻松读懂机器学习中数据特征标准化和归一化

特征归一化（特征缩放）的常用方法

特征工程-特征预处理：归一化、标准化

归一化MinMaxScaler()、标准化StandardScaler()（特征工程之特征预处理）

Python数据预处理-数据标准化（归一化）及数据特征转换

机器学习中数据特征的处理归一化vs标准化，哪个更好

Python实现数据预处理--特征标准化与归一化

第二节数值型特征进行归一化或标准化处理

特征工程-幅度调整-无量纲化（二）：归一化和标准化案例，看不懂你打我

特征工程特征预处理归一化与标准化、鸢尾花种类预测代码实现

特征工程-特征预处理-幅度调整：归一化和标准化解释和通俗案例，看不懂你打我

特征缩放（归一化处理）

特征工程一：特征缩放、选择

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)