使用pandas做数据分析,首先导入pandas库:
import pandas as pd
pandas的数据结构有两种:Series和DataFrame。前者可以理解为数组,后者可以理解为表格。我们主要讲解DataFrame。
1.创建DataFrame:
由等长列表构成。包含列名和每行该列的值。
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
输出为:
pop state year
0 1.5 Ohio 2000
1 1.7 Ohio 2001
2 3.6 Ohio 2002
3 2.4 Nevada 2001
4 2.9 Nevada 2002
5 3.2 Nevada 2003
2.导入数据:
pandas支持多种文本格式的数据导入。比如常用的csv,table和excel等。
df = pd.read_csv('ex1.csv')
df = pd.read_table('ex2.tsv')
对于没有表头的csv文件和以特殊字符(比如逗号)分割的table文件:
df = pd.read_csv('ex1.csv', header=None)
df = pd.read_csv('ex1.tsv', sep=',')
pandas支持的文件类型如下表:
3.导出数据:
使用to_csv方法,可以将数据导出为以逗号分隔的文件。
pd.to_cs('example.csv')
也可指定分隔符,比如竖线:
pd.to_cs('example.csv', sep='|')
还有其他属性,index:是否保存数据索引,header:是否保存表头:
pd.to_cs('example.csv', index=False, header=True)
4.查看数据:
查看头部5行数据和前10行数据
df.head()
df.head(10)
查看尾部5行数据和最后10行数据
扫描二维码关注公众号,回复:
4596934 查看本文章
df.tail()
df.tail(10)
还可以用Python的切片查看数据:
df[:5] #前5行
df[10:15] #第11到第15行
df[-3:] #最后三行
查看指定列的数据:
df['year']
输出:
0 Ohio
1 Ohio
2 Ohio
3 Nevada
4 Nevada
5 Nevada
Name: year, dtype: object