导入外部数据统一格式:
read_x() —— x表示待导入文件的格式
导入
.xlsx文件
|
pd.
read_excel(
r"C:\users\test.xlsx")
pd.
read_excel("C:/users/test.xlsx")
|
sheet_name="sheet1"/0——指定那个sheet
index_col = 0 —— 指定行索引
header = 0 —— 指定列索引
usecols = [0 , 2] ——指定导入列
|
导入
.csv文件
|
pd.
read_csv(r"C:\users\test.csv")
|
sep = " " ——指定分隔符号,eg" "空格,\t制表符
nrows = 2 —— 读取行数
encoding = "utf-8"/"gbk"——指定编码格式
|
导入
.txt文件
|
pd.
read_table(……)
|
sep = ',' —— 需要指明分隔符
|
导入
.sql文件
|
pd.
read_sql(sql, con)
#sql为查询语句;con为连接
|
具体备注见下 |
备注:
1.sql数据 : 第一步:将Python与数据库相连 第二步 : 利用Python执行sql查询语句
#导入pymysql模块
import pymysql
#创建连接
eng = pymysql.connect(host='localhost',user='user','password'='passwd',db='db',charset='utf8')
# user:用户名
# password:密码
# host:数据库地址/本机使用localhost
# db:数据库名
# charset:数据库编码,一般为utf-8
#连接好后
pd.read_sql(sql,con)
**************************************************************************
sql = "SELECT * FROM talbe1"
eng = pymysql.connect("118.190.120.310",'zhangjh','123456','test',charset='utf8')
df = pd.read_sql(sql,eng)
2.文件路径包含中文——通过设置engine参数
eg: df1 = pd.read_csv(r"C\users\新建文件夹\test.csv", enginge = "python", encoding="utf-8-sig")
解析语言改为Python,编码格式为utf-8-sig/gbk
熟悉数据的常用函数
.head() —— 预览前几行
.shape() —— 获取数据表大小 注意:不会把行索引和列索引算在内
.info() —— 获取数据类型
.describe() —— 可以获取所有数值字段的分布值(均值、最值、方差等)
导出数据:
-
导出为.xlsx格式
to_excel()
df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True)
设置要导出的列 columns 设置编码格式 encoding="utf-8"
缺失值处理 na_rep=0 无穷值处理 inf_rep=0
df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True, encoding="uft-8", na_rep=0,inf_rep=0)
将文件导出到多个sheet
用到excelwriter()
#excelpath为文件要存放的路径
writer = pd.ExcelWriter(excelpath, engine="xlsxwriter")
#分别将表df1,df2,df3写入Excel中的sheet1,sheet2,sheet3并命名为表1、表2、表3
df1.to_excel(writer,sheet_name = "表1")
df2.to_excel(writer,sheet_name = "表2")
df3.to_excel(writer,sheet_name = "表3")
#保存写入内容
writer.save()
-
导出为.csv格式
to_csv()
df.to_csv(path_or_buf = r"C:\user\desktop\blabla.csv", index=True, columns=['bla1','bla2'],sep=',', na_rep=0,inf_rep=0,encoding="utf-8-sig")
多了一个可以设置分隔符 sep=',' 空格等 编码格式一般为 "utf-8-sig"/'gbk' utf-8-sig防止中文乱码