Pandas基础(一):数据的存取和查看

使用pandas做数据分析,首先导入pandas库:

import pandas as pd

pandas的数据结构有两种:Series和DataFrame。前者可以理解为数组,后者可以理解为表格。我们主要讲解DataFrame。

1.创建DataFrame:
由等长列表构成。包含列名和每行该列的值。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

输出为:

   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
5  3.2  Nevada  2003

2.导入数据:
pandas支持多种文本格式的数据导入。比如常用的csv,table和excel等。

df = pd.read_csv('ex1.csv')
df = pd.read_table('ex2.tsv')

对于没有表头的csv文件和以特殊字符(比如逗号)分割的table文件:

df = pd.read_csv('ex1.csv', header=None)
df = pd.read_csv('ex1.tsv', sep=',')

pandas支持的文件类型如下表:
表1-1 pandas的数据解析函数
3.导出数据:
使用to_csv方法,可以将数据导出为以逗号分隔的文件。

pd.to_cs('example.csv')

也可指定分隔符,比如竖线:

pd.to_cs('example.csv', sep='|')

还有其他属性,index:是否保存数据索引,header:是否保存表头:

pd.to_cs('example.csv', index=False, header=True)

4.查看数据:
查看头部5行数据和前10行数据

df.head()
df.head(10)

查看尾部5行数据和最后10行数据

扫描二维码关注公众号,回复: 4596934 查看本文章
df.tail()
df.tail(10)

还可以用Python的切片查看数据:

df[:5]    #前5行
df[10:15]    #第11到第15行
df[-3:]    #最后三行

查看指定列的数据:

df['year']

输出:

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: year, dtype: object

猜你喜欢

转载自blog.csdn.net/opp003/article/details/83056055