1、前言

pandas是python数据分析中一个很重要的包；
在学习过程中我们需要预备的知识点有：DataFrame、Series、NumPy、NaN/None；

2、预备知识点详解

NumPy详解：标准安装的Python中用列表(list)保存一组值，可以用来当作数组使用，不过由于列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。NumPy的诞生弥补了这些不足，NumPy提供了两种基本的对象：ndarray（N-dimensional array object）和 ufunc（universal function object）。ndarray是存储单一数据类型的多维数组，而ufunc则是能够对数组进行处理的函数。（参考：Python 科学计算 – Numpy）
Series： Series是一个一维的类似的数组对象，包含一个数组的数据（任何NumPy的数据类型）和一个与数组关联的数据标签，被叫做索引。（参考：Series与DataFrame）
DataFrame：一个Datarame表示一个表格，类似电子表格的数据结构，包含一个经过排序的列表集，它们每一个都可以有不同的类型值（数字，字符串，布尔等等）。Datarame有行和列的索引；它可以被看作是一个Series的字典（每个Series共享一个索引）。与其它你以前使用过的（如R 的 data.frame)类似Datarame的结构相比，在DataFrame里的面向行和面向列的操作大致是对称的。在底层，数据是作为一个或多个二维数组存储的，而不是列表，字典，或其它一维的数组集合。因为DataFrame在内部把数据存储为一个二维数组的格式，因此你可以采用分层索引以表格格式来表示高维的数据。（参考：Series与DataFrame）
NaN/None： python原生的None和pandas, numpy中的numpy.NaN尽管在功能上都是用来标示空缺数据。但它们的行为在很多场景下确有一些相当大的差异。（参考：NaN 和None 的详细比较）

3、pandas详解

3.1 简介：

pandas是一个Python语言的软件包，在我们使用Python语言进行机器学习编程的时候，这是一个非常常用的基础编程库。pandas提供了快速，灵活和富有表现力的数据结构，目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。

3.2 pandas的安装：

pip install pandas

3.3 核心数据结构

pandas最核心的就是Series和DataFrame两个数据结构。

名称	维度	说明
Series	1维	带有标签的同构类型数组
DataFrame	2维	表格结构，带有标签，大小可变，且可以包含异构的数据列

DataFrame可以看做是Series的容器，即：一个DataFrame中可以包含若干个Series。更详细的解释参考：Series与DataFrame

3.4 读取CSV文件

data = pd.read_csv("fileName.csv")

read_csv()中可以用的参数：

参数	说明
path	文件路径
sep或者delimiter	字段分隔符
header	列名的行数，默认是0（第一行）
index_col	列号或名称用作结果中的行索引
names	结果的列名称列表
skiprows	从起始位置跳过的行数
na_values	代替NA的值序列
comment	以行结尾分隔注释的字符
parse_dates	尝试将数据解析为datetime。默认为False
keep_date_col	如果将列连接到解析日期，保留连接的列。默认为False。
converters	列的转换器
dayfirst	当解析可以造成歧义的日期时，以内部形式存储。默认为False
data_parser	用来解析日期的函数
nrows	从文件开始读取的行数
iterator	返回一个TextParser对象，用于读取部分内容
chunksize	指定读取块的大小
skip_footer	文件末尾需要忽略的行数
verbose	输出各种解析输出的信息
encoding	文件编码
squeeze	如果解析的数据只包含一列，则返回一个Series
thousands	千数量的分隔符

3.5处理无效值

这里需要掌握三个函数：
pandas.isna()： 判断哪些值是无效的
pandas.DataFrame.dropna()： 抛弃无效值
pandas.DataFrame.fillna()： 将无效值替换成为有效值
具体用法参照：处理无效值

4、Pandas常用函数

函数	用法
DataFrame.duplicated()	DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。
DataFrame.drop_duplicates()	它用于返回一个移除了重复行的DataFrame
DataFrame.fillna()	将无效值替换成为有效值

5、Pandas常用知识点

5.1 Dataframe写入到csv文件

df.to_csv('D:\\a.csv', sep=',', header=True, index=True)

第一个参数是说把dataframe写入到D盘下的a.csv文件中，参数sep表示字段之间用’,’分隔，header表示是否需要头部，index表示是否需要行号。

5.2 Dataframe写入到数据库中

df.to_sql('tableName', con=dbcon, flavor='mysql')

第一个参数是要写入表的名字，第二参数是sqlarchmy的数据库链接对象，第三个参数表示数据库的类型，“mysql”表示数据库的类型为mysql。

数据分析利器--Pandas