python数据分析与实战学习笔记一：连续属性离散化 - 代码天地

python数据分析与实战学习笔记一：连续属性离散化

其他 2018-09-05 17:35:28 阅读次数: 0

今天学习了将连续数据离散化的方法，主要有三个：等宽法、等频法、聚类法
等宽法是将数据的值域等分，每个部分拥有相同的宽度，然后为每个部分打上不同的符号或数值进行离散化;
等频法则是要求每个部分的记录数相同;
聚类法则是使用聚类算法比如k-means算法进行聚类获得簇，然后将合并到同一个簇做同一个标记。
三种离散化方法都需要用户指定产生的区间数

书中用K-mean进行数据离散化的代码在python3环境运行时出现了一些错误：

from sklearn.cluster import KMeans #引入KMeans
kmodel = KMeans(n_clusters = k, n_jobs = 4) #建立模型，n_jobs是并行数，一般等于CPU数较好
kmodel.fit(data.reshape((len(data), 1))) #训练模型
c = pd.DataFrame(kmodel.cluster_centers_).sort(0) #输出聚类中心，并且排序（默认是随机序的）
w = pd.rolling_mean(c, 2).iloc[1:] #相邻两项求中点，作为边界点
w = [0] + list(w[0]) + [data.max()] #把首末边界点加上
d3 = pd.cut(data, w, labels = range(k))

1.df数据结构不存在reshape()方法，reshape()方法是属于数组的。所以可以先获取df的value，因为df的value是多维数组，接着便可以直接使用reshape()，来将多维数组转换为一维数组，这里转换的原因是训练模型需要输入一位数组;

2.dataframe内的数据排序问题：不能直接对dataframe数据集使用df.sort()方法，error提示说明df结构不存在这个方法，要对dataframe结构进行排序应该使用df.sort_values(by=0)，其中参数by=”的值为属性名。

3.df的rolling_mean()移动窗口函数问题：这里移动窗口函数的使用要改为c.rolling(2).mean()，也就是把rolling_mean()函数拆开来;

猜你喜欢

转载自blog.csdn.net/braveheartm/article/details/81393446

python数据分析与实战学习笔记一：连续属性离散化

python大数据分析——连续属性离散化

数据连续属性离散化

python数据分析与挖掘实战学习笔记（一）

学习笔记(35):Python数据清洗实战-数据离散化

学习笔记(16):零基础搞定Python数据分析与挖掘-离散型数据的可视化（二）

python数据分析与挖掘实战数据离散化代码勘误

python数据分析学习笔记（一）

机器学习_连续属性的离散化

【A】python数据分析与机器学习实战机器学习中的归一化的方法讨论

Python数据分析学习笔记（5）数据变换实战

基于python的大数据分析实战学习笔记-开篇

基于python的大数据分析实战学习笔记-Anaconda

python数据分析与挖掘实战学习笔记（二）

python数据分析与机器学习实战笔记——matplotlib

python机器学习与数据分析实战笔记——pandas

python机器学习与数据分析实战笔记——numpy基础

基于python的大数据分析实战学习笔记-pandas（数据分析包）

【笔记】python数据分析与挖掘实战

学习python数据分析与挖掘实战

数据处理—数据连续属性离散化

Python 数据分析学习笔记（一）：Pandas 入门

零基础python机器学习笔记--代码实战第一天数据分析

【A-003】python数据分析与机器学习实战 Python科学计算库 Pandas数据分析处理库（一）

python数据分析学习笔记1

python数据分析入门学习笔记

python数据分析的numpy学习笔记

Python 数据分析部分学习笔记

python数据分析学习笔记

python_学习笔记_数据分析

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)