1.python读取文件的几种方式
read_csv:从文件,url,文件型对象中加载带分隔符的数据,默认分隔符为逗号
read_table:从文件,url,文件型对象中加载带分隔符的数据,默认分隔符为制表符("\t")
实质上是通用的,在实际使用中可以通过对sep参数的控制来对任何文本文件读取
举例说明
用以下代码来演示csv文件的读取操作:
import pandas as pd
data1 = pd.read_csv('rating.csv')
print(data1)
print("************取消第一行作为表头*************")
data2 = pd.read_csv('rating.csv',header=None)
"""
head=None时,即指明原始文件数据没有列索引,这样read_csv会自动加上列索引,除非你给定列索引的名字
header=0时,表示文件第0行为列索引,这样加names会替换原来的列索引
"""
print(data2)
print("************为各个字段取名**************")
data3 = pd.read_csv('rating.csv',names=['user_id','movie_id','rating'])
print(data3)
print("***********将某一字段设为索引***************")
data3 = pd.read_csv('rating.csv',names=['user_id','movie_id','rating'],index_col = "user_id")
"""
index_col为指定数据中哪一列作为Dataframe的行索引,也可以可指定多列,形成层次索引,默认为None,即不指定行索引,这样系统会自动加上行索引(0-)
"""
print(data3)
print("************用sep参数设置分隔符**************")
data4 = pd.read_csv('rating.csv',names=['user_id','movie_id','rating'],sep=',')
print(data4)
输出结果如下:
1 1193 5 978300760
0 2 661 3 978302109
1 2 914 3 978301968
2 3 3408 4 978300275
************取消第一行作为表头*************
0 1 2 3
0 1 1193 5 978300760
1 2 661 3 978302109
2 2 914 3 978301968
3 3 3408 4 978300275
************为各个字段取名**************
user_id movie_id rating time
0 1 1193 5 978300760
1 2 661 3 978302109
2 2 914 3 978301968
3 3 3408 4 978300275
***********将某一字段设为索引***************
movie_id rating time
user_id
1 1193 5 978300760
2 661 3 978302109
2 914 3 978301968
3 3408 4 978300275
************用sep参数设置分隔符**************
user_id movie_id rating time
0 1 1193 5 978300760
1 2 661 3 978302109
2 2 914 3 978301968
3 3 3408 4 978300275