Pandas基础（一）：数据的存取和查看

使用pandas做数据分析，首先导入pandas库：

import pandas as pd

pandas的数据结构有两种：Series和DataFrame。前者可以理解为数组，后者可以理解为表格。我们主要讲解DataFrame。

1.创建DataFrame：
由等长列表构成。包含列名和每行该列的值。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

输出为：

   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
5  3.2  Nevada  2003

2.导入数据：
pandas支持多种文本格式的数据导入。比如常用的csv,table和excel等。

df = pd.read_csv('ex1.csv')
df = pd.read_table('ex2.tsv')

对于没有表头的csv文件和以特殊字符(比如逗号)分割的table文件：

df = pd.read_csv('ex1.csv', header=None)
df = pd.read_csv('ex1.tsv', sep=',')

pandas支持的文件类型如下表：
表1-1 pandas的数据解析函数
3.导出数据：
使用to_csv方法，可以将数据导出为以逗号分隔的文件。

pd.to_cs('example.csv')

也可指定分隔符，比如竖线：

pd.to_cs('example.csv', sep='|')

还有其他属性，index：是否保存数据索引，header：是否保存表头：

pd.to_cs('example.csv', index=False, header=True)

4.查看数据：
查看头部5行数据和前10行数据

df.head()
df.head(10)

查看尾部5行数据和最后10行数据

扫描二维码关注公众号，回复： 4596934 查看本文章

df.tail()
df.tail(10)

还可以用Python的切片查看数据：

df[:5]    #前5行
df[10:15]    #第11到第15行
df[-3:]    #最后三行

查看指定列的数据：

df['year']

输出：

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: year, dtype: object

Pandas基础（一）：数据的存取和查看

猜你喜欢