Pandas——索引和筛选

kaggle网站上的教程
https://www.kaggle.com/sohier/tutorial-accessing-data-with-pandas/notebook

准备工作:
1、下载数据
2、安装juypter notebook

第一部分 索引

1、读取数据并展示前三行数据(代码在原网站都有,这里不单独放了)

9279273-da1c3cf9efd98eb3.png

2、索引:单行数据
方法一:最简单的方法是.iloc,和列表的索引一样,第一行的索引是0

9279273-4ede7dbcc932d5ae.png

方法二:用.loc方法,针对上面自定义的索引列Park Code


9279273-0951147331e162a4.png

注意点:


9279273-71a77746689c7e67.png

3、索引:多行数据
如果要获得多行数据,可以传入多个索引值,但是要注意的是,获取数据的顺序与索引值的顺序相同。

方法一:.iloc


9279273-d6a48aa054e49f34.png

方法二:.loc


9279273-2d6a2d23af21438b.png

方法三:和列表一样对数据进行切片
9279273-bcb57bf67630eec2.png

4、索引:列
方法一:列名作为索引

9279273-76db0e9c98cfe9fc.png

方法二:把列名作为dataframe的一个属性处理


9279273-40138019984aea39.png

这种方法要保证列名中没有空格,仅使用基本字符,并且不与dataframe方法重名。


9279273-6e4f63cf31a04541.png

为使方法二更加通用,我们可以对列名进行统一处理。把空格用“_”代替,因为Pandas区分大小写,所以名称也应转换为小写。


9279273-5e51c6f5bf95df20.png

5、索引:行列

9279273-1d2a9ab9f14ce550.png

6、索引:单个值

9279273-73e47ee19fdc6ade.png

9279273-c38fc2b845dbee4b.png

注意点:若传入值改为[1],则返回结果也改变


9279273-66cd2c15df16ec9a.png

第二部分:筛选

用pandas对数据进行筛选时所用的方法是布尔索引

9279273-2ba52c6ee99d122e.png

1、筛选state为'UT'的数据

9279273-76d2e15582cbaa19.png

2、逻辑运算符
~ 表示否定
| 表示或
& 表示与

筛选纬度大于60或面积大于10^6的公园


9279273-1ded7d409a33f137.png

筛选时可以使用更复杂的表达式,包括lambda函数

例:筛选名称由四个单词构成的公园


9279273-b4ffd06e3a52bd4d.png

3、isin 和 isnull
筛选位于ME、TX、UT这三个州的公园
head()默认显示前5行

9279273-1c41b7ad532cf57a.png

猜你喜欢

转载自blog.csdn.net/weixin_33851177/article/details/87232029