Python机器学习（八十七）Pandas 去除重复 - 代码天地

Python机器学习（八十七）Pandas 去除重复

其他 2020-06-21 21:44:52 阅读次数: 0

去除重复数据是一项常见操作，Pandas中，可以使用drop_duplicates方法。

电影数据集没有重复的行，我们来制造一些重复行。

temp_df = movies_df.append(movies_df)

temp_df.shape

输出

(2000, 11)

append()将返回一个副本，不影响原始数据DataFrame。使用.shape属性查看形状，可以看到数据增加了一倍。

接下来删除重复数据:

temp_df2 = temp_df.drop_duplicates()

temp_df2.shape

输出

(1000, 11)

与append()一样，此处drop_duplicate()方法也将返回副本。

如果想直接在原数据上修改，可以指定参数：inplace=True，Pandas的许多方法都可使用inplace参数。

temp_df.drop_duplicates(inplace=True)

temp_df被直接修改，里面的重复项被去除。

drop_duplicate()的另一个重要参数是keep，它有三个可能的选项:

first: (默认)删除重复项，但保留的是首次出现的项。
last: 删除重复项，但保留的是最后出现的项。
False: 删除重复项，不保留任何重复项。

前面的示例中没有定义keep参数，所以默认值为first。这意味着如果两行是相同的，Pandas将删除第二行保留第一行。使用last效果相反: 第一行被删除保留第二行。False值会删除所有的重复项，如果两行是相同的，这两行都将被删除。

temp_df = movies_df.append(movies_df)  # make a new copy

temp_df.drop_duplicates(inplace=True, keep=False)

temp_df.shape

输出

(0, 11)

因为所有行都是重复的，所以keep=False将删除所有行。

猜你喜欢

转载自www.cnblogs.com/huanghanyu/p/13174063.html

Python机器学习（八十七）Pandas 去除重复

pandas去除重复列

pandas 去除重复行

python list去除重复

pandas如何去除重复值

pandas去除列重复项

python 去除array的重复行

pandas 筛选去除重复的数据

Python 使用set()去除列表重复

Python 去除列表中重复的元素

python去除列表中重复元素

Python——去除列表中的重复元素

Python : 去除列表中的重复元素

python list列表去除重复数据

weka学习（五）去除重复值

python去除重复元素，统计重复元素

Python 去除列表中重复的元素 Python 去除列表中重复的元素

去除列表中重复的元素 Python 去除列表中重复的元素

leecode第二百八十七题（寻找重复数）

Pandas之drop_duplicates：去除重复项

Pandas之去除重复项函数drop_duplicates()

pandas使用drop_duplicates去除DataFrame重复项

pandas使用drop_duplicates去除DataFrame重复项参数

pandas数据分析实战之去除重复值

[Python]python对csv去除重复行 python 2020.2.11

[Python]pyhon去除txt文件重复行 python 2020.2.10

python中去除列表中的重复元素

python-去除二维数组中的重复行

python方法实现去除列表中重复的元素

python 去除list数组中的重复元素

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)