知乎专栏：https://zhuanlan.zhihu.com/p/33576513

pandas库，是一个很重要的python库，这里对pandas进行简短的介绍，主要用于入门。对于详细内容，还是查看详细的文档。
参考网址：http://pandas.pydata.org/pandas-docs/stable/10min.html

#此引用库，为默认情况
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1.创建对象

1.1Series

利用一系列的值，创建Series对象，pandas创建默认整数索引值：
Series对象，即有索引的一系列有顺序的值

s = pd.Series([1,3,5,np.nan,6,8])

1.2DataFrame

1.2.1numpy数组创建Dataframe对象

使用一个numpy数组，创建DataFrame对象，使用时间索引和列索引：
DataFrame对象，类似我们常见的表格，有行和列索引（标签）。

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')
#index和columns分别指出行索引和列索引

1.2.2字典创建DataFrame对象

df2 = pd.DataFrame({'A':1,
                    'B':pd.Timestamp('20130102'),
                    'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D':np.array([3]*4,dtype='int32'),
                    'E':pd.Categorical(['test','train','test','train']),
                    'F':'foo'
                        })

可以对数值类型进行设定，同时可以.dtypes属性查阅类型信息。
如果你使用的是IPython(Jupyter Notebook)，可以使用tab键，IPython会自动给出该对象可用的属性：

df2.<Tab>

df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix         df2.clip
df2.add_suffix         df2.clip_lower
df2.align              df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append             df2.combine_first
df2.apply              df2.compound
df2.applymap           df2.consolidate
df2.D

2.查看数据

2.1 查看数据前几行或者后几行：`df.head(),df.tail()`

In [14]: df.head()
Out[14]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
In [15]: df.tail(3)
Out[15]: 
                   A         B         C         D
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

2.2 查看DataFrame对象的的行列索引和值：`df.index, df.columns, df.values`

python
In [16]: df.index
Out[16]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [17]: df.columns
Out[17]: Index(['A', 'B', 'C', 'D'], dtype='object')

In [18]: df.values
Out[18]: 
array([[ 0.4691, -0.2829, -1.5091, -1.1356],
       [ 1.2121, -0.1732,  0.1192, -1.0442],
       [-0.8618, -2.1046, -0.4949,  1.0718],
       [ 0.7216, -0.7068, -1.0396,  0.2719],
       [-0.425 ,  0.567 ,  0.2762, -1.0874],
       [-0.6737,  0.1136, -1.4784,  0.525 ]])

2.3. 数据在统计学方面的描述：`df.describe()`

In [19]: df.describe()
Out[19]: 
              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean   0.073711 -0.431125 -0.687758 -0.233103
std    0.843157  0.922818  0.779887  0.973118
min   -0.861849 -2.104569 -1.509059 -1.135632
25%   -0.611510 -0.600794 -1.368714 -1.076610
50%    0.022070 -0.228039 -0.767252 -0.386188
75%    0.658444  0.041933 -0.034326  0.461706
max    1.212112  0.567020  0.276232  1.071804

对数据进行转置：df.T(即矩阵的转置)

In [20]: df.T
Out[20]: 
   2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A    0.469112    1.212112   -0.861849    0.721555   -0.424972   -0.673690
B   -0.282863   -0.173215   -2.104569   -0.706771    0.567020    0.113648
C   -1.509059    0.119209   -0.494929   -1.039575    0.276232   -1.478427
D   -1.135632   -1.044236    1.071804    0.271860   -1.087401    0.524988

2.4.对数据进行排序：

#按索引值进行排序，axis=1为按列排序，后指为升序
df.sort_index(axis=1, ascending=False)
#按值进行排序，括号内为使用的行索引
df.sort_values(by='B')

In [21]: df.sort_index(axis=1, ascending=False)
Out[21]: 
                   D         C         B         A
2013-01-01 -1.135632 -1.509059 -0.282863  0.469112
2013-01-02 -1.044236  0.119209 -0.173215  1.212112
2013-01-03  1.071804 -0.494929 -2.104569 -0.861849
2013-01-04  0.271860 -1.039575 -0.706771  0.721555
2013-01-05 -1.087401  0.276232  0.567020 -0.424972
2013-01-06  0.524988 -1.478427  0.113648 -0.673690
In [22]: df.sort_values(by='B')
Out[22]: 
                   A         B         C         D
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-06 -0.673690  0.113648 -1.478427  0.524988
2013-01-05 -0.424972  0.567020  0.276232 -1.087401

3.选择

尽管python标准库和Numpy库都存在数据选择，但是建议使用优化过的pandas获取方法。
文中方法均是对DataFrame对象举例，Series对象可以认为是一列的Dataframe对象。

3.1准备

选择一列，可以直接调用，得到一个Series对象:df.A

In [23]: df['A']
Out[23]: 
2013-01-01    0.469112
2013-01-02    1.212112
2013-01-03   -0.861849
2013-01-04    0.721555
2013-01-05   -0.424972
2013-01-06   -0.673690
Freq: D, Name: A, dtype: float64

对行做切片：既可以按照顺序也可以按照行索引，df[0:3]，df['20130102':'20130104']

In [24]: df[0:3]
Out[24]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

In [25]: df['20130102':'20130104']
Out[25]: 
                   A         B         C         D
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860

3.2 按标签选择

按照行列标签的名称，对数据进行选择：df.loc[dates[0]]

In [26]: df.loc[dates[0]]
Out[26]: 
A    0.469112
B   -0.282863
C   -1.509059
D   -1.135632
Name: 2013-01-01 00:00:00, dtype: float64

通过标签，多轴获取：df.loc[:,['A','B']]

In [27]: df.loc[:,['A','B']]
Out[27]: 
                   A         B
2013-01-01  0.469112 -0.282863
2013-01-02  1.212112 -0.173215
2013-01-03 -0.861849 -2.104569
2013-01-04  0.721555 -0.706771
2013-01-05 -0.424972  0.567020
2013-01-06 -0.673690  0.113648

标签索引，起始点都包括：df.loc['20130102':'20130104',['A','B']]

In [28]: df.loc['20130102':'20130104',['A','B']]
Out[28]: 
                   A         B
2013-01-02  1.212112 -0.173215
2013-01-03 -0.861849 -2.104569
2013-01-04  0.721555 -0.706771

降维，只取某一行的某些列，组成一个Series
df.loc['20130102',['A','B']]

In [29]: df.loc['20130102',['A','B']]
Out[29]: 
A    1.212112
B   -0.173215
Name: 2013-01-02 00:00:00, dtype: float64

得到某一个值：

In [30]: df.loc[dates[0],'A']
Out[30]: 0.46911229990718628

3.3通过位置进行选择：

通过整数索引进行选择：df.iloc[3]

In [32]: df.iloc[3]
Out[32]: 
A    0.721555
B   -0.706771
C   -1.039575
D    0.271860
Name: 2013-01-04 00:00:00, dtype: float64

整数切片，和numpy，python类似：df.iloc[3:5,0:2]

In [33]: df.iloc[3:5,0:2]
Out[33]: 
                   A         B
2013-01-04  0.721555 -0.706771
2013-01-05 -0.424972  0.567020

整数位置列表，来获取特定的某些行或列：df.iloc[[1,2,4],[0,2]]

In [34]: df.iloc[[1,2,4],[0,2]]
Out[34]: 
                   A         C
2013-01-02  1.212112  0.119209
2013-01-03 -0.861849 -0.494929
2013-01-05 -0.424972  0.276232

整行获取：df.iloc[1:3,:]

In [35]: df.iloc[1:3,:]
Out[35]: 
                   A         B         C         D
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

整列获取：df.iloc[:,1:3]

In [36]: df.iloc[:,1:3]
Out[36]: 
                   B         C
2013-01-01 -0.282863 -1.509059
2013-01-02 -0.173215  0.119209
2013-01-03 -2.104569 -0.494929
2013-01-04 -0.706771 -1.039575
2013-01-05  0.567020  0.276232
2013-01-06  0.113648 -1.478427

以上两种方法均不包括终点值
* 获取单个值：df.iloc[2,3]

In [37]: df.iloc[1,1]
Out[37]: -0.17321464905330858

3.4 布尔获取：

此方法相对难点，但是有时候却很好用。
* 根据某行值得范围进行选择：df[df.A > 0]

扫描二维码关注公众号，回复： 1108983 查看本文章

In [39]: df[df.A > 0]
Out[39]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-04  0.721555 -0.706771 -1.039575  0.271860

满足布尔条件的值被选择：df[df >0]

#删选出df中大于0的值
In [40]: df[df > 0]
Out[40]: 
                   A         B         C         D
2013-01-01  0.469112       NaN       NaN       NaN
2013-01-02  1.212112       NaN  0.119209       NaN
2013-01-03       NaN       NaN       NaN  1.071804
2013-01-04  0.721555       NaN       NaN  0.271860
2013-01-05       NaN  0.567020  0.276232       NaN
2013-01-06       NaN  0.113648       NaN  0.524988

isin()方法进行筛选：

#数据赋值
df2 = df.copy()
#对df2修改，直接选择然后赋值
df2['E'] = ['one','one','two','three','four','three']
In [43]: df2
Out[43]: 
                   A         B         C         D      E
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632    one
2013-01-02  1.212112 -0.173215  0.119209 -1.044236    one
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804    two
2013-01-04  0.721555 -0.706771 -1.039575  0.271860  three
2013-01-05 -0.424972  0.567020  0.276232 -1.087401   four
2013-01-06 -0.673690  0.113648 -1.478427  0.524988  three
In [44]: df2[df2['E'].isin(['two','four'])]
Out[44]: 
                   A         B         C         D     E
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804   two
2013-01-05 -0.424972  0.567020  0.276232 -1.087401  four

3.5对数据进行赋值：

*利用Series对象赋值：
s1 = pd.Series([1,2,3,4,5],index=pd.date_range('20130102',periods=6))


In [46]: s1
Out[46]: 
2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [47]: df['F'] = s1

#通过标签进行修改
In [48]: df.at[dates[0],'A'] = 0
#通过位置获取进行修改
In [49]: df.iat[0,1] = 0
#标签过去进行修改，和第一种类似
In [50]: df.loc[:,'D'] = np.array([5] * len(df))
In [51]: df
Out[51]: 
                   A         B         C  D    F
2013-01-01  0.000000  0.000000 -1.509059  5  NaN
2013-01-02  1.212112 -0.173215  0.119209  5  1.0
2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0
2013-01-04  0.721555 -0.706771 -1.039575  5  3.0
2013-01-05 -0.424972  0.567020  0.276232  5  4.0
2013-01-06 -0.673690  0.113648 -1.478427  5  5.0In [52]: df2 = df.copy()

In [53]: df2[df2 > 0] = -df2

In [54]: df2
Out[54]: 
                   A         B         C  D    F
2013-01-01  0.000000  0.000000 -1.509059 -5  NaN
2013-01-02 -1.212112 -0.173215 -0.119209 -5 -1.0
2013-01-03 -0.861849 -2.104569 -0.494929 -5 -2.0
2013-01-04 -0.721555 -0.706771 -1.039575 -5 -3.0
2013-01-05 -0.424972 -0.567020 -0.276232 -5 -4.0
2013-01-06 -0.673690 -0.113648 -1.478427 -5 -5.0

以上介绍的用于数据选择的方法此时均可以使用，选择数据，然后进行赋值即可，赋值时，要注意行列大小。

4.数据缺失

pandas主要使用np.nan来代替缺失值，默认情况下并非都是np.nan。
* reindx来修改索引，返回数据的一个拷贝。**也就是不会对原数据进行修改，直接调用的话。

df1 = df.reindex(index=dates[0:4],columns=list(df.columns) + ['E'])
#使用索引赋值
df1.loc[dates[0]:dates[1],'E'] = 1
In [57]: df1
Out[57]: 
                   A         B         C  D    F    E
2013-01-01  0.000000  0.000000 -1.509059  5  NaN  1.0
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0
2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  NaN
2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  NaN

去掉含有缺失值的任何行，即只要是含有缺失值的行均被去掉
df1.dropna(how='any')此为默认情况

In [58]: df1.dropna(how='any')
Out[58]: 
                   A         B         C  D    F    E
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

填补缺失值：`df1.fillna(value=5)

In [59]: df1.fillna(value=5)
Out[59]: 
                   A         B         C  D    F    E
2013-01-01  0.000000  0.000000 -1.509059  5  5.0  1.0
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0
2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  5.0
2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  5.0

利用布尔变量表示出缺失情况：pd.isna(df1)

In [60]: pd.isna(df1)
Out[60]: 
                A      B      C      D      F      E
2013-01-01  False  False  False  False   True  False
2013-01-02  False  False  False  False  False  False
2013-01-03  False  False  False  False  False   True
2013-01-04  False  False  False  False  False   True

对于大多数的数据缺失情况，我们首先通过isna()获取缺失值位置，然后利用布尔选取，对缺失值进行赋值，填充缺失值。

5.数据操作

5.1统计学

数据平均值：df.mean()

In [61]: df.mean()
Out[61]: 
A   -0.004474
B   -0.383981
C   -0.687758
D    5.000000
F    3.000000
dtype: float64

按列(行方向)求平均值：df.mean(1)

In [62]: df.mean(1)
Out[62]: 
2013-01-01    0.872735
2013-01-02    1.431621
2013-01-03    0.707731
2013-01-04    1.395042
2013-01-05    1.883656
2013-01-06    1.592306
Freq: D, dtype: float64

传播：这是非常重要的一部分，也就是利用pandas进行运算时，pandas会自动进行赋值，使得维数相符合，比如，矩阵 +/- 向量。
否则我们首先需要对列表/Series等对象，进行赋值，维数相同后才可以运算。

In [63]: s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
In [64]: s
Out[64]: 
2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64
In [65]: df.sub(s, axis='index')
Out[65]: 
                   A         B         C    D    F
2013-01-01       NaN       NaN       NaN  NaN  NaN
2013-01-02       NaN       NaN       NaN  NaN  NaN
2013-01-03 -1.861849 -3.104569 -1.494929  4.0  1.0
2013-01-04 -2.278445 -3.706771 -4.039575  2.0  0.0
2013-01-05 -5.424972 -4.432980 -4.723768  0.0 -1.0
2013-01-06       NaN       NaN       NaN  NaN  NaN

5.2 应用(Apply)：

对数据进行函数操作，不只是简单地数据操作，可以自己来定义函数。

In [66]: df.apply(np.cumsum)
Out[66]: 
                   A         B         C   D     F
2013-01-01  0.000000  0.000000 -1.509059   5   NaN
2013-01-02  1.212112 -0.173215 -1.389850  10   1.0
2013-01-03  0.350263 -2.277784 -1.884779  15   3.0
2013-01-04  1.071818 -2.984555 -2.924354  20   6.0
2013-01-05  0.646846 -2.417535 -2.648122  25  10.0
2013-01-06 -0.026844 -2.303886 -4.126549  30  15.0
#lambda定义函数，默认情况进行列操作
#df.apply(lambda x: x.max - x.min(), axis=1)
#对数据进行行操作
In [67]: df.apply(lambda x: x.max() - x.min())
Out[67]: 
A    2.073961
B    2.671590
C    1.785291
D    0.000000
F    4.000000
dtype: float64

5.3 直方图

即统计数据各点出现的频率，s.value_counts()

#创建0-7的随机整数，10个
In [68]: s = pd.Series(np.random.randint(0, 7, size=10))
In [69]: s
Out[69]: 
0    4
1    2
2    1
3    2
4    6
5    4
6    4
7    6
8    4
9    4
dtype: int64
In [70]: s.value_counts()
Out[70]: 
4    5
6    2
2    2
1    1
dtype: int64

5.4 字符串操作：

pandas对象存在许多字符串，尤其是Series对象，它的字符串操作很多和python标准库相类似，这里不赘述。
详细内容：http://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods

In [71]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

In [72]: s.str.lower()
Out[72]: 
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

若有错误，欢迎指出，互相学习、交流

10分钟入门pandas(一)

1.创建对象

1.1Series

1.2DataFrame

1.2.1numpy数组创建Dataframe对象

1.2.2字典创建DataFrame对象

2.查看数据

2.1 查看数据前几行或者后几行：`df.head(),df.tail()`

2.2 查看DataFrame对象的的行列索引和值：`df.index, df.columns, df.values`

2.3. 数据在统计学方面的描述：`df.describe()`

2.4.对数据进行排序：

3.选择

3.1准备

3.2 按标签选择

3.3通过位置进行选择：

3.4 布尔获取：

3.5对数据进行赋值：

4.数据缺失

5.数据操作

5.1统计学

5.2 应用(Apply)：

5.3 直方图

5.4 字符串操作：

猜你喜欢

10分钟入门pandas(一)

1.创建对象

1.1Series

1.2DataFrame

1.2.1numpy数组创建Dataframe对象

1.2.2字典创建DataFrame对象

2.查看数据

2.1 查看数据前几行或者后几行：df.head(),df.tail()

2.2 查看DataFrame对象的的行列索引和值：df.index, df.columns, df.values

2.3. 数据在统计学方面的描述：df.describe()

2.4.对数据进行排序：

3.选择

3.1准备

3.2 按标签选择

3.3通过位置进行选择：

3.4 布尔获取：

3.5对数据进行赋值：

4.数据缺失

5.数据操作

5.1统计学

5.2 应用(Apply)：

5.3 直方图

5.4 字符串操作：

猜你喜欢

2.1 查看数据前几行或者后几行：`df.head(),df.tail()`

2.2 查看DataFrame对象的的行列索引和值：`df.index, df.columns, df.values`

2.3. 数据在统计学方面的描述：`df.describe()`