Python10-pandas整理02

导入外部数据统一格式:
 
read_x()  ——  x表示待导入文件的格式
 
导入 .xlsx文件
pd. read_excel( r"C:\users\test.xlsx")
pd. read_excel("C:/users/test.xlsx")
sheet_name="sheet1"/0——指定那个sheet
index_col = 0  ——  指定行索引
header = 0 —— 指定列索引
usecols = [0 , 2] ——指定导入列
导入 .csv文件
pd. read_csv(r"C:\users\test.csv")
sep = " " ——指定分隔符号,eg" "空格,\t制表符
nrows = 2 —— 读取行数
encoding = "utf-8"/"gbk"——指定编码格式
导入 .txt文件
pd. read_table(……)
sep = ',' —— 需要指明分隔符
导入 .sql文件
pd. read_sql(sql, con) 
#sql为查询语句;con为连接
具体备注见下

备注:

1.sql数据  :  第一步:将Python与数据库相连   第二步 : 利用Python执行sql查询语句

#导入pymysql模块
import pymysql

#创建连接
eng = pymysql.connect(host='localhost',user='user','password'='passwd',db='db',charset='utf8')

# user:用户名
# password:密码
# host:数据库地址/本机使用localhost
# db:数据库名
# charset:数据库编码,一般为utf-8

#连接好后
pd.read_sql(sql,con)

**************************************************************************
sql = "SELECT * FROM talbe1"
eng = pymysql.connect("118.190.120.310",'zhangjh','123456','test',charset='utf8')
df = pd.read_sql(sql,eng)

2.文件路径包含中文——通过设置engine参数

eg: df1 = pd.read_csv(r"C\users\新建文件夹\test.csv", enginge = "python", encoding="utf-8-sig")

解析语言改为Python,编码格式为utf-8-sig/gbk


熟悉数据的常用函数

.head()  ——  预览前几行

.shape() ——  获取数据表大小  注意:不会把行索引和列索引算在内

.info() —— 获取数据类型

.describe() —— 可以获取所有数值字段的分布值(均值、最值、方差等)


导出数据:

  • 导出为.xlsx格式

            to_excel() 

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True)

            设置要导出的列  columns   设置编码格式  encoding="utf-8"  

            缺失值处理  na_rep=0         无穷值处理 inf_rep=0     

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True, encoding="uft-8", na_rep=0,inf_rep=0)

            将文件导出到多个sheet

用到excelwriter()

#excelpath为文件要存放的路径
writer = pd.ExcelWriter(excelpath, engine="xlsxwriter")

#分别将表df1,df2,df3写入Excel中的sheet1,sheet2,sheet3并命名为表1、表2、表3
df1.to_excel(writer,sheet_name = "表1")
df2.to_excel(writer,sheet_name = "表2")
df3.to_excel(writer,sheet_name = "表3")

#保存写入内容
writer.save()

  

  • 导出为.csv格式

            to_csv() 

df.to_csv(path_or_buf = r"C:\user\desktop\blabla.csv", index=True, columns=['bla1','bla2'],sep=',', na_rep=0,inf_rep=0,encoding="utf-8-sig")

           多了一个可以设置分隔符    sep=',' 空格等   编码格式一般为  "utf-8-sig"/'gbk'  utf-8-sig防止中文乱码

发布了56 篇原创文章 · 获赞 0 · 访问量 769

猜你喜欢

转载自blog.csdn.net/xiuxiuxiu666/article/details/104317018
今日推荐