pandas(九) 数据读取-读取csv、excle、txt、mysql数据

一、Pandas需要先读取表格类型的数据,然后进行分析

数据类型 说明 读取方法
CSV. tsV. txt 用逗号分隔、tab分割的纯文本文件 pd.read_csv
excel xls、xlsx文件 pd.read_excel
mysql 关系型数据库表 pd.read_sql
二、Pandas 读取数据

数据资料:https://grouplens.org/datasets/movielens/

  • 读取CSV, 使用默认的标题行、逗号分隔符号

    import pandas as pd
    fpath = '/Users/python/Desktop/means/ml-25m/ratings.csv'
    ratings = pd.read_csv(fpath)
    
  • 读取txt, 自己指定分隔符,标题行

    ratings = pd.read_csv(
        fpath,
        sep='\t',     # 指定分隔符、列名
        header=None,  # 告诉pd文件没有标题行
        names=['userId','movieId','rating','timestamp'] # 自己设置标题行
    )
    
  • 读取excel文件,使用默认的标题行、逗号分隔符

    数据有自己的标题行
    ratings = pd.read_excel(fpath)
    
  • 读取MySQL数据库

    import pymysql
    conn = pymysql.connect(
        host='',
        user='',
        password='',
        database='demo',
        charset='utf8'
    )
    ratings = pd.read_sql(sql='select * from sys_user', con=conn)
    
三、Pandas 其它操作
  • 查看前几行数据

    ratings.head()
    
     userId	movieId	rating	timestamp
    0	1	296	5.0	1147880044
    1	1	306	3.5	1147868817
    2	1	307	5.0	1147868828
    3	1	665	5.0	1147878820
    4	1	899	3.5	1147868510
    
  • 查看数据的形状,返回(行数、列数)

    ratings.shape
    (25000095, 4)   数据集:包含 250000954
  • 查看列明列表

    ratings.columns
    
    输出位列的名字
    Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
    
  • 查看索引列

    ratings.index
    
    输出开始行数,结束行数
    RangeIndex(start=0, stop=25000095, step=1)
    
  • 查看每一列数据类型

    ratings.dtypes
    
    输出: 每一列的数据类型
    userId         int64
    movieId        int64
    rating       float64
    timestamp      int64
    dtype: object
    

猜你喜欢

转载自blog.csdn.net/a6864657/article/details/131492784
今日推荐