pandas中的drop_duplicates和duplicated的应用 - 代码天地

pandas中的drop_duplicates和duplicated的应用

其他 2020-03-19 11:56:32 阅读次数: 0

在pandas中，duplicated和drop_duplicates函数用来对DateFrame来进行去重。

默认情况下，drop_duplicates只保留第一次出现的组合，如果需要保留最后一次出现的组合，需要使用keep='last'参数。

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import pandas as pd
from pandas import Series, DataFrame
from numpy import nan as NA
import numpy as np

data2 = DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
print (data2)
#duplicated, 返回布尔型，表示是否重复, 在使用duplicated和drop_duplicates去重时
print (data2.duplicated())
print (data2.drop_duplicates())
data2['v'] = range(7)
print (data2)
#保留第一个重复出现的组合
print (data2.drop_duplicates(['k1']))
#保留最后一个出现的组合
print (data2.drop_duplicates(['k1','k2'], keep='last'))

发布了145 篇原创文章 · 获赞 21 · 访问量 37万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/wxc20062006/article/details/103576343

pandas中的drop_duplicates和duplicated的应用

Pandas 数据重复处理 duplicated()和drop_duplicates()

pandas 去重函数 drop_duplicates() 和选取重复行函数 duplicated()

pandas drop_duplicates

pandas中drop_duplicates用法

Pandas drop_duplicates的inplace属性

pandas.DataFrame.dropna | drop_duplicates

pandas drop_duplicates()函数去重

pandas包 —— drop()、sort_values()、drop_duplicates()

Pandas之drop_duplicates：去除重复项

Pandas之去除重复项函数drop_duplicates()

pandas使用drop_duplicates去除DataFrame重复项

pandas使用drop_duplicates去除DataFrame重复项参数

pandas使用drop_duplicates去除DataFrame重复项参数详解

【pandas】[5] DataFrame通过drop_duplicates()函数找出重复的行

dataframe去重 drop_duplicates

python3中的drop_duplicates函数（对数据进行去重处理）

判断dataframe是否有重复行索引或列索引和drop_duplicates用法

Pandas数据处理/drop_duplicates()/映射map()/replace()/rename()/分箱/过滤异常值/随机抽样take()/random.permutation()

pandas去重保留前一条或后一条 drop_duplicates、打乱列表顺序 random.shuffle()的使用方法、pandas 按行遍历Dataframe

python TypeError: drop_duplicates() got an unexpected keyword argument 'take_last'

pandas.DataFrame.drop_duplicates 用法说明

Pandas中DataFrame.drop()

pandas.DataFrame.duplicated

pandas.Series.duplicated

Python 文件导入数据导出数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split

数据处理数据格式转化[map/filter/re.sub/x.strftime/pd.to_datetime/sort_values/drop_duplicates/apply(str)]

【python】详解pandas dataframe 去重函数 pandas.DataFrame.drop_duplicates

pandas dataframe去除重复数据pandas.DataFrame.drop_duplicates

df.apply, df.duplicated和df各种drop再归纳

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)