1.Pandas概述
- Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。
- Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。
- Pandas提供大量能使我们快速便捷地处理数据的函数和方法。
- Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。
2.Pandas引入
import pandas as pd#为了方便实用pandas 采用pd简写
3.Pandas数据结构
3.1Series
创建
Series 是一个一维数组结构的,可以存入任一一种python的数据类型(integers, strings, floating point numbers, Python objects, etc.)。最创建一个Series的最基本方法是:
s = pd.Series(data, index=index)
- 1.从列表创建
pd.Series([1,2,3,4,5])
import numpy as np
import pandas as pd
s=pd.Series([1,2,3,4,5,6])
print(s)
输出结果:
0 1
1 2
2 3
3 4
4 5
5 6
dtype: int64
- 2从Ndarry创建
pd.Series(np.random.rand(5),index=list('abcde'))
输出结果:
a 0.957903
b 0.979356
c 0.500768
d 0.516510
e 0.924367
dtype: float64
- 3从字典创建
pd.Series({'a':1,'b':2,'c':3})
输出结果:
a 1
b 2
c 3
dtype: int64
基本操作
- 访问前三个元素
s=pd.Series({'a':1,'b':2,'c':3})
print(s[:3])
a 1
b 2
c 3
dtype: int64
- 按制定索引删除元素
s.pop('a')
#删除索引为a
- 修改指定索引元素
s['B']=6 #修改索引为B的列值为6
3.2DataFrame
DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。DataFrame有行索引和列索引,可以看成由Series组成的字典。
dates=pd.date_range('20180806',periods=6)#生成了6天的日期
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['A','B','C','D'])
print(df)
A B C D
2018-08-06 0.483698 0.962974 -0.487797 -0.143273
2018-08-07 -0.410182 1.237004 0.693254 0.233207
2018-08-08 -0.126662 -0.536712 -0.291148 0.505594
2018-08-09 1.563224 0.620195 -0.114318 0.230931
2018-08-10 1.089471 0.572033 0.307460 0.570147
2018-08-11 -1.567869 -0.451456 -0.346962 0.162235