基于Python的数据分析与数据挖掘教程之三: 数据分析库(Pandas)

      博文所需文件:https://download.csdn.net/download/fjqlldg/12251455

  Pandas是基于NumPy的一种数据分析工具,在数据分析与挖掘中,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们的工作量,熟练并掌握pandas常规用法是正确构建数据分析与挖掘的第一步

Pandas中除了Panel数据结构,还有两种数据结构:Series和DataFrame,这两种数据结构也是建立在NumPy基础上。

Series:序列,与NumPy中的一维数组相类似,与Python数据结构list也很相近。

DataFrame:二维的表格型数据结构。

Panel:三维数组。

一、序列(Series)

1、语法:Series([数据1,数据2,…],index=[索引1,索引2,…])

2、生成序列:

⑴、空序列

⑵、列表生成序列

⑶、数组构建序列

⑷、字典构建序列

3、序列切片

二、数据框(DataFrame)

1、用法:DataFrame(columnsMap)

2、数据框生成

⑴、空数据框

⑵、列表创建数据框

①、默认索引为0开始。

②、自定义索引

③、自定义索引及列名

⑶、根据字典创建数据框

3、数据框的操作

⑴、增加数据框列

⑵、删除数据框列

⑶、数据框排序:按学号降序排序

三、数据读取(所需样本数据见网页)

1、读取Excel格式数据

2、读取csv格式数据

命令格式:read_csv(file,names=[列名1,列名2,...],sep=”,”)

四、数据框的操作

1、显示数据信息

2、显示前5行,后5行

3、查看数据框列名

4、数据框维度

⑴、显示数据框的行数和列数

⑵、显示数据框行数

⑶、显示数据框列数

5、数据选取

⑴、从数据框抽取某列

⑵、选取多列

⑶、df.iloc[i,j]:表示数据框的第i行,第j列数据。

6、抽取数据

⑴、抽取第4行(第一行是从0开始)

⑵、抽取3至6行

⑶、抽取0到3行且“学号”和“姓名”列数据

⑷、抽取0至2行和1至5列数据

(5)、条件选取:选取性别为“男”且专业为“计算机”的同学信息

 

发布了39 篇原创文章 · 获赞 11 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/fjqlldg/article/details/104889266