Day04 - Python中科学计算库pandas基本使用

参考代码链接：https://pan.baidu.com/s/1TnsQnoe3AIXnlbi1SkkC0A 提取码：znk2

1，pandas简介

pandas是基于numpy的一个开源python库，被广泛用于快速分析数据，以及数据清洗和准备工作。pandas中有两类重要的数据结构，就是序列series和数据框dataframe。

Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

2，两种数据结构

pd.Series():

通过一位数组创建序列；通过字典的方式创建序列；通过dataframe中的某一行或者某一列创建序列

pd.DataFrame():

通过二维数组创建；通过字典方式创建；通过数据框创建

3，相关操作

（1）查询数据

需要使用索引有针对的选取原数据中的子集，指定行，指定列等；

无论数据框还是序列，最左侧都有一个非原始数据对象，即数据索引

通过索引获取目标数据，对数据进行一系列操作：

*通过index属性获取序列的索引值

*更改index

*通过索引获取数据

*自动化对齐

（2）通过pandas对数据进行查找

*查询数据的前五行

*查询数据末尾五行

*查询指定行

*查询指定列

*查询指定的行和指定的列

*多条件查询

（3）统计分析

series

*总和

*均值

*最大最小值

*中位数

*众数

dataframe

*df.shape:维度

*df.info:数据表的基本信息（维度，列名称，数据格式，所占空间等）

*df.dtypes:每一行数据的格式

*df.columns:查看列名称

（4）实现SQL操作：增-删-改-查

增	删	改	查
通过concat函数实现增加行；通过columns函数增加列	del删除整个数据框；drop删除指定行，列	结合索引和赋值的方式	groupby():聚合分组；sort_values():排序；merge():多表链接

(5)缺失值处理

删除法：

当数据中某个变量大部分值都会缺失值，可以考虑删除该变量；

当缺失值随机分布，且缺失的数量不多时，可删除这些缺失的观测；

主要通过dropna完成

替补法：

对于连续变量，如果变量的分布近似或就是正态分布，可以用均值替代缺失值；

如果变量是有偏的，可以使用中位数来替代缺失值；

对离散型变量，一般使用众数去替换那些存在缺失的观测；

主要通过fillna完成

（6）实现数据透视表的功能

Excel中表格对数据的表示淋漓尽致，pandas则：列时分组变量，行索引中包含了相应的聚合函数。

（7）多层索引

在数据框中使用多层索引，可以将整个数据集控制在二维表结构中，这对数据重塑和基于分组的操作（如数据透视表的生成）比较有帮助

在数据透视表中往往存在多层索引

Day04 - Python中科学计算库pandas基本使用

Day04 - Python中科学计算库pandas基本使用

猜你喜欢