pandas - 数据离散化

其他 2019-03-14 13:00:52 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/apollo_miracle/article/details/88413492

学习目标

应用cut、qcut实现数据的区间分组
应用get_dummies实现数据的哑变量矩阵
应用：找出股票的涨跌幅异动（异常）值

1 为什么要离散化（了解）

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。

2 什么是数据的离散化

连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数 值代表落在每个子区间中的属性值。

离散化有很多种方法，这使用一种最简单的方式去操作

原始人的身高数据：165，174，160，180，159，163，192，184
假设按照身高分几个区间段：150~165, 165~180,180~195

这样我们将数据分到了三个区间段，我可以对应的标记为矮、中、高三个类别，最终要处理成一个"哑变量"矩阵

3 股票的涨跌幅离散化

3.1 验证涨跌幅变化是否符合正态分布

发现基本符合，但是有肥尾现象

data = pd.read_csv("./data/stock_day/stock_day.csv")
p_change= data['p_change']
p_change.hist(bins=80)
plt.show()

3.2 将股票涨跌幅数据进行分组

使用的工具：

pd.qcut：对数据进行分组
- 将数据分组一般会与value_counts搭配使用，统计每组的个数
series.value_counts()：统计分组次数

# 自行分组
qcut = pd.qcut(np.abs(p_change), 10)
qcut.value_counts()

自定义区间分组：

pd.cut(data, bins)

# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

3.3 股票涨跌幅分组数据变成哑变量矩阵

dummaries = pd.get_dummies(p_counts, prefix="rise")

小结

数据离散化
qcut、cut实现数据分组
get_dummies实现哑变量矩阵

猜你喜欢

转载自blog.csdn.net/apollo_miracle/article/details/88413492

Pandas：数据的离散化

pandas - 数据离散化

pandas-数据离散化

Pandas_05数据离散化

利用pandas对数据离散化

pandas高级处理-数据离散化

pandas数据离散化 get_dummies()

pandas：数据离散化与离散化数据的后期处理(one-hot)

pandas的离散化，面元划分

Pandas数据离散化&one-hot编码

pandas数据离散化pandas.cut()和pandas.qcut()

pandas的使用（6）离散化和合并

pandas之字符串离散化

数据分析之Pandas（八）高级处理-数据离散化与数据合并

【pandas】[4] 数据清洗（数据合并，重塑，转换，离散化，过滤，采样）

Python3：Pandas的简单使用4(针对DataFrame的操作：离散化，数据拼接，合并，画图)

python数据分析之pandas（10）离散化和元面划分

Python数据离散化指南：手写if-elif语句与pandas中cut()方法的实现

Pandas - 数据规整化

4.pandas数据预处理（下）（标准化、哑变量、离散化、无监督分箱）（完）

数据预处理 | 使用 Pandas 进行数值型数据的标准化归一化离散化二值化

【Pandas】Pandas处理本文数据

python使用pandas模块介绍以及使用，dataframe结构，Series结构，基本数据操作,DataFrame运算，pandas画图，存储，缺失值处理，离散化，合并

Python之Pandas超详细入门教程 -- 第六章 Pandas数据离散化与合并【进阶篇】

Pandas数据可视化

Pandas——数据可视化

Pandas 数据可视化

pandas——数据离散pd.cut()和pd.qcut

数据挖掘工具pandas（十）离散化处理

机器学习之Pandas：Pandas介绍、基本数据操作、DataFrame运算、Pandas画图、文件读取与处、缺失值处理、数据离散化、合并、交叉表和透视表、分组与聚合、案例（超长篇，建议收藏慢慢看）

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)