大数据处理经验(持续更新) - 代码天地

大数据处理经验(持续更新)

其他 2020-04-16 10:26:24 阅读次数: 0

先取少量数据跑代码，确保代码没有语法和逻辑错误，再放到大量数据上面跑。
使用pandas的DataFrame表示数据的时候，对于int和float的默认为int64和float64位，但实际可能不需要这样的高精度表示。可通过以下代码节省内存：

def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / (1024 ** 3)
    print('Memory usage of dataframe is {:.2f} GB'.format(start_mem))
    for col in df.columns:
        col_type = df[col].dtype

        if col_type != object:
            min_val = df[col].min()
            max_val = df[col].max()

            if str(col_type).startswith('int'):
                type_list = [np.int8, np.int16, np.int32, np.int64]
                for i in type_list:
                    if min_val >= np.iinfo(i).min and max_val <= np.iinfo(i).max:
                        df[col] = df[col].astype(i)
                        break
            else:
                type_list = [np.float16, np.float32, np.float64]
                for i in type_list:
                    if min_val >= np.iinfo(i).min and max_val <= np.iinfo(i).max:
                        df[col] = df[col].astype(i)
                        break

    end_mem = df.memory_usage().sum() / (1024 ** 3)
    print('Memory usage of dataframe is {:.2f} GB'.format(end_mem))
    return df

使用pandas的read_csv或者excel读取大文件时，在读取过程中出现OOM(Out of memory，内存溢出)，但是结合watch -n 0.1 free -hm和已读取的行数占比来查看的话，发现需要内存超出实际内存大约占10%左右，可通过设置chunksize进行分块读取(如总行数的1/10)。

herosunly

发布了178 篇原创文章 · 获赞 389 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/herosunly/article/details/105185257

大数据处理经验(持续更新)

Python数据处理（持续更新）

数据处理|NLP数据增强方法整理（持续更新）

py简单数据处理--持续更新

【学习笔记】python数据处理（持续更新）

Pandas数据处理实例笔记(持续更新)

大数据处理

大数据持续更新

大数据处理培训：大数据处理流程

大数据处理文章

db大数据处理

大数据处理-序

JXL大数据处理

大数据处理优化

大数据处理流程

大数据处理方案

浅谈大数据处理

大数据处理Pig

大数据处理架构

Spark大数据处理

大数据处理相关

大数据处理框架

excel 大数据处理

大数据处理思路

【python】学好数据处理的第一步：数据信息的分析（持续更新~）

Python数据处理的一些小Trick搜集-持续更新（欢迎留言投稿）

R语言绘图、数据处理学习记录持续更新

大数据学习之问题解决+经验+调优方法整理(持续更新)

【大数据】海量数据处理方法

大数据-Kafka数据处理

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)