Day04 - Python中科学计算库pandas基本使用

Day04 - Python中科学计算库pandas基本使用

参考代码链接:https://pan.baidu.com/s/1TnsQnoe3AIXnlbi1SkkC0A   提取码:znk2

1,pandas简介

pandas是基于numpy的一个开源python库,被广泛用于快速分析数据,以及数据清洗和准备工作。pandas中有两类重要的数据结构,就是序列series和数据框dataframe。

Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

2,两种数据结构

pd.Series():

通过一位数组创建序列;通过字典的方式创建序列;通过dataframe中的某一行或者某一列创建序列

pd.DataFrame():

通过二维数组创建;通过字典方式创建;通过数据框创建

3,相关操作

(1)查询数据

需要使用索引有针对的选取原数据中的子集,指定行,指定列等;

无论数据框还是序列,最左侧都有一个非原始数据对象,即数据索引

通过索引获取目标数据,对数据进行一系列操作:

*通过index属性获取序列的索引值

*更改index

*通过索引获取数据

*自动化对齐

(2)通过pandas对数据进行查找

*查询数据的前五行

*查询数据末尾五行

*查询指定行

*查询指定列

*查询指定的行和指定的列

*多条件查询

(3)统计分析

series

*总和

*均值

*最大最小值

*中位数

*众数

dataframe

*df.shape:维度

*df.info:数据表的基本信息(维度,列名称,数据格式,所占空间等)

*df.dtypes:每一行数据的格式

*df.columns:查看列名称

(4)实现SQL操作:增-删-改-查

通过concat函数实现增加行;通过columns函数增加列 del删除整个数据框;drop删除指定行,列 结合索引和赋值的方式 groupby():聚合分组;sort_values():排序;merge():多表链接

(5)缺失值处理

删除法:

当数据中某个变量大部分值都会缺失值,可以考虑删除该变量;

当缺失值随机分布,且缺失的数量不多时,可删除这些缺失的观测;

主要通过dropna完成

替补法:

对于连续变量,如果变量的分布近似或就是正态分布,可以用均值替代缺失值;

如果变量是有偏的,可以使用中位数来替代缺失值;

对离散型变量,一般使用众数去替换那些存在缺失的观测;

主要通过fillna完成

(6)实现数据透视表的功能

Excel中表格对数据的表示淋漓尽致,pandas则:列时分组变量,行索引中包含了相应的聚合函数。

(7)多层索引

在数据框中使用多层索引,可以将整个数据集控制在二维表结构中,这对数据重塑和基于分组的操作(如数据透视表的生成)比较有帮助

在数据透视表中往往存在多层索引

猜你喜欢

转载自blog.csdn.net/qq_44621510/article/details/89943888