Python科学计算库之pandas基本功能

数据文件读取/文本数据读取与文本存储
索引、选取和数据过滤
算法运算和数据对齐
函数的应用和映射
层次索引
排序
分组聚合

pandas：数据文件读取

通过pandas提供的read_xxx相关的函数可以读取文件中的数据，并形成DataFrame,常用的数据读取方法为：read_csv，主要可以读取文本类型的数据

在这里插入图片描述

在这里插入图片描述
通过DataFrame的相关方式可以获取对应的列或者数据形成一个新的
DataFrame, 方便后续进行统计计算。

pandas：缺省值NaN处理方法

对于DataFrame/Series中的NaN一般采取的方式为删除对应的列/行或者填充一个默认值
在这里插入图片描述

pandas：常用的数学统计方法

在这里插入图片描述

pandas：相关系数与协方差

相关系数（Correlation coefficient）：反映两个样本/样本之间的相互关系以及之间的相关程度。在COV的基础上进行了无量纲化操作，也就是进行了标准化操作。
协方差(Covariance, COV)：反映两个样本/变量之间的相互关系以及之间的相关程度。
在这里插入图片描述
协方差
如果有X,Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得
到一个乘积，再对这每时刻的乘积求和并求出均值。
如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差
为负，说明X，Y反向运动，协方差越小说明反向程度越高。
在这里插入图片描述
相关系数
就是用X、Y的协方差除以X的标准差和Y的标准差。所以，相关系数也可以看成协方差：一种剔除
了两个变量量纲影响、标准化后的特殊协方差。
1.也可以反映两个变量变化时是同向还是反向，如果同向变化为正，反向变化为负
2.由于它是标准化后的协方差，因此更重的特性是，它消除了两个变量变化幅度的影响，而只是
单纯反应两个变量单位变化的相似程度。
注意：
相关系数不像协方差一样可以在＋\infty 到－\infty 间变化，它只能在＋1到－1之间变化
当相关系数为1的时候两者相识度最大，同向正相关
当相关系数为0的时候两者没有任何相似度，两个变量无关
当相关系数为-1的时候两者变化的反向相似度最大，完全反向负相关
在这里插入图片描述