Notas del estudio de análisis de datos de Python 2020: adquisición y almacenamiento de datos de Pandas (6)

Tabla de contenido

5. Introducción a los parámetros relacionados con la lectura de datos:

1. Lectura de datos (archivo csv)

(Si está leyendo un archivo de Excel, solo necesita cambiar csv para sobresalir, y los parámetros relevantes son los mismos que los parámetros de csv)

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10) 
# nrows=10  只读取前10行数据     
# 如果读取的是excel文件，则只需将csv换成excel即可，相关参数与csv参数使用相同
 

print(df)    # 打印数据

resultado de la operación

2. Lectura de datos (archivo Excel)

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')

print(df)

resultado de la operación:

Leer varias páginas de trabajo por lotes:

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')

sheet_name = ['score' + str(i) for i in range(1,4)]
print(sheet_name)
data_all = pd.DataFrame()
for i in sheet_name:
    data = pd.read_excel('score.xlsx',encoding='gbk',sheet_name=i)
    data_all = pd.concat([data_all,data],axis = 0,ignore_index = True)

print(data_all)

resultado de la operación:

3. Almacenamiento de datos

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_excel('score.xlsx',encoding='utf-8')

sheet_name = ['score' + str(i) for i in range(1,4)]
print(sheet_name)
data_all = pd.DataFrame()
for i in sheet_name:
    data = pd.read_excel('score.xlsx',encoding='gbk',sheet_name=i)
    data_all = pd.concat([data_all,data],axis = 0,ignore_index = True)


#  保存数据为CSV文件格式
print(data_all.to_csv('data_all.csv',index=False,encoding='utf-8'))

#  保存数据为EXCEL文件格式
print(data_all.to_excel('data_all.xlsx',index=False,encoding='utf-8'))

Visualización de resultados:

4. Explicación de la función na_values :

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10, na_values=118.0,header=0)
# nrows=10  只读取前10行数据    na_values=118.0   将数据中为118.0的数据读为缺失值
# header=0   将数据第一行作为表头

print(df)    # 打印数据

resultado de la operación:

5. Introducción a los parámetros relacionados con la lectura de datos:

import os
import pandas as pd
print(os.getcwd())      # 路径读取
# >>>  F:\Python\自学部分

# 读取文件
df = pd.read_csv('预测结果.csv',encoding='utf-8', nrows=10, na_values=118.0)
# nrows=10  只读取前10行数据    na_values=118.0   将数据中为118.0的数据读为缺失值

# print(df)    # 打印数据

print(df.head(5))     # 输出前5行数据

print(df.tail(5))     # 打印最后5行数据

print(df.dtypes)      # 输出每一列的数据类型

Mostrar resultados de ejecución:

Notas del estudio de análisis de datos de Python 2020: adquisición y almacenamiento de datos de Pandas (6)

1. Lectura de datos (archivo csv)

2. Lectura de datos (archivo Excel)

3. Almacenamiento de datos

4. Explicación de la función na_values :

5. Introducción a los parámetros relacionados con la lectura de datos:

Supongo que te gusta