pandas 常用清洗数据（一） - 代码天地

pandas 常用清洗数据（一）

其他 2018-10-31 23:18:19 阅读次数: 0

数据源获取：

https://www.kaggle.com/datasets

1、

Look at the some basic stats for the ‘imdb_score’ column: data.imdb_score.describe()
Select a column: data[‘movie_title’]
Select the first 10 rows of a column: data[‘duration’][:10]
Select multiple columns: data[[‘budget’,’gross’]]
Select all movies over two hours long: data[data[‘duration’] > 120]

data.country = data.country.fillna(‘’)
data.duration = data.duration.fillna(data.duration.mean())

data = pd.read_csv(‘movie_metadata.csv’, dtype={title_year: str})

data[‘movie_title’].str.upper()

Similarly, to get rid of trailing whitespace:

data[‘movie_title’].str.strip()

data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

丢弃带有NAN的所有项
data.dropna()

丢弃所有元素都是NAN的行
data.dropna(how='all')

丢弃所有元素都是NAN的列
data.dropna(axis=1,how='all')  #axis = 0 行，=1 列

只保留至少有3个非NAN值的行
data.dropna(thresh=3)

猜你喜欢

转载自www.cnblogs.com/cbugs/p/9886468.html

pandas 常用清洗数据（一）

Pandas 数据清洗常用篇

[数据清洗]-Pandas 清洗“脏”数据（一）

Pandas数据清洗

pandas 清洗Excel数据

Pandas之数据清洗

pandas数据清洗（二）

pandas-数据清洗

pandas清洗脏数据

Pandas 数据清洗与整理

Pandas数据清洗方法

（pandas）评论数据清洗

python数据清洗工具、方法、过程整理归纳（一、数据清洗之常用工具——numpy，pandas）

Python数据攻略-Pandas常用数据操作与数据清洗

pandas 常用清洗数据（三）排序，去重

【Python】Pandas 数据清洗操作，常用函数总结

2.pandas数据清洗

002 pandas初步数据清洗

pandas数据清洗与计算（二）

数据清洗框架Pandas入门

numpy、pandas做数据清洗

pandas——数据清洗之缺失

pandas——数据清洗之重复

Pandas 数据清洗与整理(全)

Pandas数据清洗及特征处理

python数据清洗实战入门笔记（一）numpy和pandas

用pandas进行数据清洗（二）（Data Analysis Pandas Data Munging/Wrangling）用pandas进行数据清洗（一）（Data Analysis Pandas Data Munging/Wrangling）

pandas数据清洗--替换数据replace

pandas数据清洗--处理重复数据

【Pandas数据分析5】数据清洗

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)