python pandas数据类型与占用内存--优化 - 代码天地

python pandas数据类型与占用内存--优化

其他 2020-04-08 10:24:55 阅读次数: 0

一、疑难杂症

最近使用pandas计算时，总是感觉dataframe占用内存过大，内存不足，导致计算时间被拉长。于是，趁着周末一探究竟。找到一个原因，与大家分享！

二、探寻原因

首先，pandas底层数据存储与计算是基于numpy的。通过查找资料我们发现，pandas的主要类型主要是下表的第一列。这几类是pandas的数据大类，后面的 Numpy type是其包含的小雷。在我们利用pandas读取数据时，尤其是数值型数据时，他会默认启用大类来定义数据类型。比如：表里只有数字1或者1.0，就会被定义为int64或者float64。作为充分考虑数据的多变性，这种行为是没有疑义的。但是，but，他就是消耗了内存。在这里插入图片描述
常用数据类型的占用内存情况如下：

flaottype =['float32','float64']
inttypes = ["uint8", "int8", "int16",'float32']
for it in inttypes:
    print(np.iinfo(it))
# 这段代码可以输出数据类型的表示范围。

知道了这些不同类型的数据类型占用的内存大小，再进一步掌握自己实际操作的数据的范围，就可以选择合适的数据类型，这样可以节省内存，优化计算。

三、方案

放一个操作的demo。大家可以结合实际进行操作。前后的内训占用节省了月65%欢迎指正！

df3.info()
输出
<class 'pandas.core.frame.DataFrame'>
Index: 34519 entries, a to m
Data columns (total 17 columns):
.......省略........
dtypes: float64(7), int64(10)
memory usage: 6.0+ MB --------------默认读取的类型，占用内存

df4 = df3.astype(np.int8)
输出
<class 'pandas.core.frame.DataFrame'>
Index: 34519 entries, a to m
Data columns (total 17 columns):
.......省略........
dtypes: int8(17)
memory usage: 2.1+ MB---------------astype修改后的，占用内存

参考：
https://pbpython.com/pandas_dtypes.html
https://blog.csdn.net/wj1066/article/details/81124959

大Py

发布了25 篇原创文章 · 获赞 14 · 访问量 1153

私信关注

猜你喜欢

转载自blog.csdn.net/A_pinkpig/article/details/104602919

python pandas数据类型与占用内存--优化

python减少pandas数据的内存占用

Python pandas dataframe 数据类型转换

如何优化Python占用的内存

python学习——pandas dtypes(数据类型) 、astype

python学习笔记——（2）pandas中的数据类型

python-pandas创建Series数据类型

【Python】pandas模块中更改Series的数据类型

python pandas数据类型Series和DataFrame

Python数据类型

【Python】数据类型

Python的数据类型

python 数据类型

python——数据类型

Python【数据类型】

Python—数据类型

Python 的数据类型

python的数据类型:

python ----- 数据类型

Python·数据类型

Python ：数据类型

python：数据类型

python - 数据类型

如何优化Python占用的内存，面试必学

48 python,numpy,pandas数据相互转换及数据类型转换；（汇总）（tcy）

Python python基础 python 数据类型

python每日一记25>>>pandas数据类型dtype

【Python 实战基础】Pandas中Series的创建和数据类型转换

【Python 实战基础】Pandas对表格数据类型的创建与转换

【Python 实战基础】Pandas如何使用日期和随机数生成表格数据类型

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)