pandas dataframe 中 explode()函数用法及效果 - 代码天地

pandas dataframe 中 explode()函数用法及效果

企业开发 2023-06-04 22:59:22 阅读次数: 0

最近在使用pyspark处理数据，需要连接各种各样的表和字段，因此记录相关函数的使用情况。今天介绍explode().

1. explode()函数简介

explode 函数是 pandas.DataFrame 类的一个方法，能够通过pyspark间接调用。

它可以将一个包含list或者其它可迭代对象的列拆分成多行，然后在所有其它列上进行复制。

函数原型：参数 column 表示指定要拆分的列。

通过 pyspark调用：

from pyspark.sql import functions as F
F.explode(column)

2. 实验效果

第一步：创建一个包含两列（A，B）的dataframe数据，且B包含了不同长度的数组。

import pandas as pd
df = pd.DataFrame({
        'A': ['a', 'b', 'c', 'd', 'e'],
        'B': [[1], [2, 4], [4, 5, 6], [], [7]]
    })
print(df)

第二步：将B列展开

import pandas as pd
df = pd.DataFrame({
        'A': ['a', 'b', 'c', 'd', 'e'],
        'B': [[1], [2, 4], [4, 5, 6], [], [7]]
    })
df = df.explode('B')
print(df)

由结果可知，‘a’对应list[1]，list[1]展开不变，和‘a'，一对一；元素’b‘对应list[2, 4]，展开list数组，元素‘b'复制，分别对应元素 2 和 4；以此类推。

注意到，A列元素伴随着B列中对应元素的展开，而复制；元素’d‘对应的空list，因此展开/拆解后A列对应的B列元素同样为空。

更加复杂的情况，A、B、C三列，df = df.explode('B').explode('C')，则考虑了所有组合情况。详情请见博客链接：pandas dataframe 中的explode函数用法详解 - Python技术站

猜你喜欢

转载自blog.csdn.net/xiao_ling_yun/article/details/130754400

pandas dataframe 中 explode()函数用法及效果

Pandas中DataFrame用法总结

Pandas 中Dataframe的 insert函数

pandas库中 DataFrame的用法记录

python中的pandas.DataFrame.fillna()函数

【python】Pandas中DataFrame基本函数整理

pandas中DataFrame相关

Pandas中DataFrame索引

pandas的DataFrame用法

Pandas - - - DataFrame 用法

Spark中DataFrame与Pandas中DataFrame的区别

pandas DataFrame applymap()函数

pandas.DataFrame()中的iloc和loc用法

pandas-03 DataFrame()中的iloc和loc用法

pandas.dataFrame中query和eval用法

Pandas中DataFrame.drop()

pandas中DataFrame基本操作

访问 Pandas DataFrame 中的元素

pandas中dataframe的索引问题

在pandas中遍历DataFrame行

pandas中的Series和DataFrame

Spark与Pandas中DataFrame对比

压缩pandas中dataframe内存

pandas中的DataFrame 的values 方法

Pandas中DataFrame的基础操作

python下的Pandas中DataFrame基本操作，基本函数整理

python—pandas中DataFrame类型数据操作函数

【python】Pandas中DataFrame基本函数整理（全）

python中Pandas 库函数DataFrame的基本属性详解

pandas dataframe.pivot()用法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)