Python科学计算库之pandas

pandas是一种Python数据分析的利器，是一个开源的数据分析包，最初是应用于金融数据分析工具而开发出来的，因此pandas为时间序列分析提供了很好的支持。pandas是PyData项目的一部分。
官网：http://pandas.pydata.org/
官方文档：http://pandas.pydata.org/pandas-docs/stable/
在这里插入图片描述
安装过程详见: 官方安装文档
Python版本要求：2.7、3.4、3.5、3.6
依赖Python库：setuptools、NumPy、python-dateutil、pytz
安装方式：
Python的Anaconda发行版，已经安装好pandas库，不需要另外安装
使用Anaconda界面安装，选择对应的pandas进行勾选安装即可
使用Anaconda命令安装：conda install pandas
使用PyPi安装命令安装：pip install pandas

使用Anaconda界面安装pandas

在这里插入图片描述

pandas引入约定

from pandas import Series, DataFrame
import pandas as pd

在这里插入图片描述

pandas基本数据结构

pandas中主要有两种数据结构，分别是：Series和DataFrame。
Series：一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意：Series中的索引值是可以重复的。
DataFrame：一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame即有行索引也有列索引，可以被看做是由Series组成的字典。

Series：通过一维数组创建

在这里插入图片描述

Series：通过字典的方式创建

Series值的获取

Series值的获取主要有两种方式：
通过方括号+索引的方式读取对应索引的数据，有可能返回多条数据
通过方括号+下标值的方式读取对应下标值的数据，下标值的取值范围为：[0，len(Series.values))；另外下标值也可以是负数，表示从右往左获取数据
Series获取多个值的方式类似NumPy中的ndarray的切片操作，通过方括号+下标值/索引值+冒号(:)的形式来截取series对象中的一部分数据。
在这里插入图片描述
Series的运算
NumPy中的数组运算，在Series中都保留了，均可以使用，并且Series进行数组运算的时候，索引与值之间的映射关系不会发生改变。
注意：其实在操作Series的时候，基本上可以把Series看成NumPy中的ndarray数组来进行操作。ndarray数组的绝大多数操作都可以应用到Series上。
在这里插入图片描述