joblib 对 Pandas 的并行处理 - 代码天地

joblib 对 Pandas 的并行处理

其他 2020-02-14 21:47:16 阅读次数: 0

目标：
如果需要对一个很大的数据集进行操作，而基于一列数据生成新的一列数据可能都需要耗费很长时间。

于是可以使用 joblib 进行并行处理。

实现方法：
1、无并行：

import pandas as pd

def double_fun(data):
	return pow(data,2)

data['double'] = data['x'].apply(double_fun)

2、并行：

import pandas as pd
from joblib import Parallel, delayed

def double_func(data):
    return pow(data,2)

def key_func(subset):
    subset["double"] = subset["x"].apply(double_func)

data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)
data = pd.concat(results)

基本原理就是把整个 dataframe 根据 index，每行生成了一个子数据集，而把每个子数据集作为子任务使用多进程运行，最终生成 results 是多进程运行生成的结果的 list，使用 concat 重新组合就是我们最终想要的结果了。

n_jobs 参数就是需要使用几个进程池来运行程序。

xfxlesson

发布了24 篇原创文章 · 获赞 3 · 访问量 1564

私信关注

猜你喜欢

转载自blog.csdn.net/xfxlesson/article/details/103934899

joblib 对 Pandas 的并行处理

使用 joblib 对 Pandas 数据进行并行处理

joblib保存模型和joblib的并行化处理和tqdm

pandas | 并行处理dataframe生成新csv

pickle and joblib

joblib 保存和读取

【Pandas】Pandas处理本文数据

ImportError: cannot import name ‘joblib‘

pandas数据预处理

pandas缺失值处理

pandas 数据处理

Pandas处理数据方法

pandas处理丢失数据

pandas 数据预处理

Pandas时间序列处理

pandas重复行处理

pandas时间处理

Python pandas 处理数据

pandas数据处理

pandas处理json数据

Pandas的数据处理

pandas 处理数据概括

pandas处理mongodb数据

pandas垃圾数据的处理

pandas处理日期函数

Pandas处理表格

pandas 处理缺失值

pandas nan值处理

pandas 的空值处理

pandas 时间处理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)