【Python那些事儿】数据放缩 - 代码天地

【Python那些事儿】数据放缩

其他 2018-10-31 21:52:53 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/duxu24/article/details/73928025

讨论如何对数据进行放缩：

放缩是一种非常重要的数据转换手段；
对数据进行放缩之后，能够控制数值的范围；
数据集里有很多列的时候，数据较大的列对于其他列更有优势，必须对数据进行放缩以避免这种干扰。

操作方法

缩放到[0, 1]区间

import numpy as np
np.random.seed(10)
x = [np.random.randomint(10, 25)*1.0 for i in range(10)]

def min_max(x):
    return [round(round((xx - min(x))/(1.0*(max(x) - min(x))), 2) for xx in x]

print(x)
print(min_max(x))


----------
输出：
[19.0, 23.0, 14.0, 10.0, 11.0, 21.0, 22.0, 19.0, 23.0, 10.0]
[0.69, 1.0, 0.31, 0.0, 0.08, 0.85, 0.92, 0.69, 1.0, 0.0]

这样就把原始数值分布缩放到[0, 1]区间内。10原来是最小的数，缩放后为0.0;23是原来最大的数，缩放后是1.0。

缩放到任意范围

假如定义新的区间范围为nr_min到nr_max，那min_max的公式得做如下修改：

x_scaled = (x - min(x)) / (max(x) - min(x)) * (nr_max - nr_min) + nr_min

Python实例代码：

import numpy as np

np.random.seed(10)
x = [np.random.randint(10, 25)*1.0 for i in range(10)]

#定义函数
def min_max_range(x, range_values):
    return [round( ((xx - min(x)) / (1.0*(max(x) - min(x)))) * (range_values[1] - range_values[0]) + range_values[0], 2) for xx in x]

if __name__ == '__main__':
    print(x)
    print(min_max_range(x, (100, 200)))

----------
输出：
[19.0, 23.0, 14.0, 10.0, 11.0, 21.0, 22.0, 19.0, 23.0, 10.0]
[169.23, 200.0, 130.77, 100.0, 107.69, 184.62, 192.31, 169.23, 200.0, 100.0]

将数值缩放到[100, 200]，最小值10和最大值23缩放到100和200。

猜你喜欢

转载自blog.csdn.net/duxu24/article/details/73928025

【Python那些事儿】数据放缩

python之数据结构的那些事儿

关于python那些事儿

python那些事儿

数据治理那些事儿

【Python那些事儿】准备数据——训练集和测试集

【Python那些事儿】为多变量数据绘制散点图

【Python那些事儿】用图表分析单变量数据

关于Python时间的那些事儿

数据库的那些事儿

浅析数据存储的“那些事儿”

【Python那些事儿】Python中的迭代器

Python进程线程协程那些事儿

【Python那些事儿】使用箱线图

说说 Python 装饰器「参数」的那些事儿。

Python每日打卡—进制那些事儿

python词云2：明朝那些事儿

this的那些事儿

cassandra 删除数据那些事儿

虚拟机中数据的那些事儿

【JavaScript】js数据类型那些事儿

我和数据标注的那些事儿

数据库设计那些事儿

关于数据结构与算法的那些事儿

说说AUTOSAR数据类型的那些事儿

推荐系统燃料：数据那些事儿

学习Python的那些事儿_Day13_Json 数据解析&CVS解析

【Python那些事儿】Python中的生成器

【Python那些事儿】主成分分析PCA

小白入门学习Python，值得你重视的那些事儿

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)