Day04 - Python中科学计算库pandas基本使用
参考代码链接:https://pan.baidu.com/s/1TnsQnoe3AIXnlbi1SkkC0A 提取码:znk2
1,pandas简介
pandas是基于numpy的一个开源python库,被广泛用于快速分析数据,以及数据清洗和准备工作。pandas中有两类重要的数据结构,就是序列series和数据框dataframe。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
2,两种数据结构
pd.Series():
通过一位数组创建序列;通过字典的方式创建序列;通过dataframe中的某一行或者某一列创建序列
pd.DataFrame():
通过二维数组创建;通过字典方式创建;通过数据框创建
3,相关操作
(1)查询数据
需要使用索引有针对的选取原数据中的子集,指定行,指定列等;
无论数据框还是序列,最左侧都有一个非原始数据对象,即数据索引
通过索引获取目标数据,对数据进行一系列操作:
*通过index属性获取序列的索引值
*更改index
*通过索引获取数据
*自动化对齐
(2)通过pandas对数据进行查找
*查询数据的前五行
*查询数据末尾五行
*查询指定行
*查询指定列
*查询指定的行和指定的列
*多条件查询
(3)统计分析
series
*总和
*均值
*最大最小值
*中位数
*众数
dataframe
*df.shape:维度
*df.info:数据表的基本信息(维度,列名称,数据格式,所占空间等)
*df.dtypes:每一行数据的格式
*df.columns:查看列名称
(4)实现SQL操作:增-删-改-查
增 | 删 | 改 | 查 |
---|---|---|---|
通过concat函数实现增加行;通过columns函数增加列 | del删除整个数据框;drop删除指定行,列 | 结合索引和赋值的方式 | groupby():聚合分组;sort_values():排序;merge():多表链接 |
(5)缺失值处理
删除法:
当数据中某个变量大部分值都会缺失值,可以考虑删除该变量;
当缺失值随机分布,且缺失的数量不多时,可删除这些缺失的观测;
主要通过dropna完成
替补法:
对于连续变量,如果变量的分布近似或就是正态分布,可以用均值替代缺失值;
如果变量是有偏的,可以使用中位数来替代缺失值;
对离散型变量,一般使用众数去替换那些存在缺失的观测;
主要通过fillna完成
(6)实现数据透视表的功能
Excel中表格对数据的表示淋漓尽致,pandas则:列时分组变量,行索引中包含了相应的聚合函数。
(7)多层索引
在数据框中使用多层索引,可以将整个数据集控制在二维表结构中,这对数据重塑和基于分组的操作(如数据透视表的生成)比较有帮助
在数据透视表中往往存在多层索引