目次
1.データ読み取り(csvファイル)
(Excelファイルを読んでいる場合は、csvをExcelに変更するだけでよく、関連するパラメーターはcsvパラメーターと同じです)
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10)
# nrows=10 只读取前10行数据
# 如果读取的是excel文件,则只需将csv换成excel即可,相关参数与csv参数使用相同
print(df) # 打印数据
運転結果
2.データの読み取り(Excelファイル)
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')
print(df)
演算結果:
複数の作業ページをバッチで読み取ります。
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')
sheet_name = ['score' + str(i) for i in range(1,4)]
print(sheet_name)
data_all = pd.DataFrame()
for i in sheet_name:
data = pd.read_excel('score.xlsx',encoding='gbk',sheet_name=i)
data_all = pd.concat([data_all,data],axis = 0,ignore_index = True)
print(data_all)
演算結果:
3.データストレージ
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')
sheet_name = ['score' + str(i) for i in range(1,4)]
print(sheet_name)
data_all = pd.DataFrame()
for i in sheet_name:
data = pd.read_excel('score.xlsx',encoding='gbk',sheet_name=i)
data_all = pd.concat([data_all,data],axis = 0,ignore_index = True)
# 保存数据为CSV文件格式
print(data_all.to_csv('data_all.csv',index=False,encoding='utf-8'))
# 保存数据为EXCEL文件格式
print(data_all.to_excel('data_all.xlsx',index=False,encoding='utf-8'))
結果の表示:
4. na_values関数の説明:
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10, na_values=118.0,header=0)
# nrows=10 只读取前10行数据 na_values=118.0 将数据中为118.0的数据读为缺失值
# header=0 将数据第一行作为表头
print(df) # 打印数据
演算結果:
5.データ読み取り関連パラメーターの概要:
import os
import pandas as pd
print(os.getcwd()) # 路径读取
# >>> F:\Python\自学部分
# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10, na_values=118.0)
# nrows=10 只读取前10行数据 na_values=118.0 将数据中为118.0的数据读为缺失值
# print(df) # 打印数据
print(df.head(5)) # 输出前5行数据
print(df.tail(5)) # 打印最后5行数据
print(df.dtypes) # 输出每一列的数据类型
実行結果を表示する: