Pandas的read_csv的参数 (备)

Pandas的read_csv的参数

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

作用:将CSV(逗号分隔)文件读入DataFrame
还支持可选的迭代或将文件分解为块。
详见pandas官网

  • 必填参数
filepath_or_buffer : str,pathlib。str, pathlib.Path,
py._path.local.LocalPath or any object with a read() method 
(such as a file handle or StringIO)
读取文件路径,可以是URL,可用URL类型包括:http, ftp, s3和文件。
  • 常用参数
sep : str, default ‘,’
指定分隔符。如果不指定参数,则会尝试使用逗号分隔。

delimiter : str, default None
定界符,备选分隔符(如果指定该参数,则sep参数失效)

header : int or list of ints, default ‘infer’
指定行数用来作为行名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None。
如果明确设定header=0 就会替换掉原来存在列名。header参数可以是一个list例如:[0,1,3]。

names : array-like, default None
用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None。默认列表中不能出现重复,除非设定参数mangle_dupe_cols=True。

index_col : int or sequence or False, default None
用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。
可使用index_col=[0,1]来指定文件中的第1和2列为索引列。

usecols : array-like, default None
返回一个数据子集,即选取某几列,不读取整个文件的内容,有助于加快速度和降低内存。
usecols=[1,2]或usercols=['a','b']

dtype : Type name or dict of column -> type, default None
每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}

不常用的,暂时不写了,以后用到了再补充。
参考:http://www.cnblogs.com/datablog/p/6127000.html

猜你喜欢

转载自blog.csdn.net/qq_43232373/article/details/85041703