将Series和DataFrame引入本地命名空间。
ipython --pylab In [1]: from pandas import Series, DataFrame In [2]: import pandas as pd
pandas的数据结构介绍
两个主要数据结构:Series和DataFrame。
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series。
In [3]: obj = Series([4, 7, -5, 3]) In [4]: obj Out[4]: 0 4 1 7 2 -5 3 3 dtype: int64
Series的字符串表现形式为:索引在左边,值在右边。由于我们没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象。
In [5]: obj.values Out[5]: array([ 4, 7, -5, 3], dtype=int64) In [6]: obj.index Out[6]: RangeIndex(start=0, stop=4, step=1)
通常,我们希望所创建的Series带有一个可以对各个数据点进行标记的索引。
In [7]: obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) In [8]: obj2 Out[8]: d 4 b 7 a -5 c 3 dtype: int64 In [9]: obj2.index Out[9]: Index([u'd', u'b', u'a', u'c'], dtype='object')
与普通NumPy数组相比,可以通过索引的方式选取Series中的单个或一组值。
In [10]: obj2['a'] Out[10]: -5 In [11]: obj2['d'] = 6 In [12]: obj2[['c', 'a', 'd']] Out[12]: c 3 a -5 d 6 dtype: int64
伐