Use un caso completo para explicar todo el proceso y el conocimiento básico del análisis de datos de Python

 

Primero piense en el proceso de análisis de datos. El primer paso es obtener datos, por lo que el contenido de esta sección es obtener datos y operaciones básicas sobre los datos.

1. Importación de datos

1.1 Importar archivo .xlsx

Para importar un archivo de Excel con un sufijo .xlsx, puede usar el método pd.read_excel (ruta)

 

 

 

El resultado:

 

Los datos de df_review contienen dos campos, listing_id y date

 

El parámetro indispensable para leer datos es la ruta. La ruta del archivo se escribe de manera diferente en diferentes sistemas operativos. Generalmente, hay dos formas de escribir la ruta en el sistema operativo Windows:

  • Barra invertida "\": haga clic con el botón derecho en este archivo, seleccione propiedades, puede ver dónde está, el valor predeterminado es usar \ para indicar, porque la barra invertida "\" se define como un símbolo de escape en Python, así que escriba Cuando necesite agregar un carácter de escape r en la parte delantera de la ruta, r "D: \ Personal \ data \ reviews.xlsx"
  • Barra diagonal "/": no es necesario agregar r, todo escrito con /: "D: /personal/data/reviews.xlsx" Dos formas de ver los hábitos personales.

parámetro sheet_name

Para los archivos .xlsx, puede haber varias tablas de hoja, por lo que también puede establecer el parámetro sheet_name para especificar la tabla de hoja importada, puede pasar el nombre de la tabla de hoja, también puede especificar el orden en orden creciente desde 0, no especifique la tabla de hoja El valor predeterminado es la primera hoja.

 

 

 

1.2 Importar archivo .csv

Importe el archivo de formato .csv utilizando el método pd.read_csv (ruta)

 

 

 

El resultado:

 

Los datos de df_list incluyen principalmente: identificación del propietario, nombre del propietario, latitud y longitud, tipo de habitación, precio, número mínimo de días disponibles para alquiler, número de revisiones, tiempo de la última revisión, porcentaje de revisiones mensuales, casas rentables, duración anual rentable

Especificar formato de codificación

Un punto de conocimiento importante para los archivos .csv es el formato de codificación. Especialmente al importar archivos, debe comprender el formato de codificación del archivo para evitar caracteres confusos. Entonces, ¿cómo sabe qué tipo de codificación es el archivo? Ábralo con el software notepad ++, y el formato de codificación del archivo se mostrará en la esquina inferior derecha. Por ejemplo, el archivo listados.csv que acaba de importar es codificación utf-8. Al escribir la codificación, el caso es común, y utf-8 también se puede escribir como utf8.

 

Puede usar el parámetro de codificación para establecer el formato de codificación. El formato de codificación predeterminado de Python es utf-8.

 

Problema confuso chino

Para el problema confuso causado por la aparición de chino en la ruta del archivo, puede agregar el motor de parámetros para evitarlo.

 

 

 

El resultado:

 

image.png

Especificar índice de fila

Si no especifica un índice de fila, se utiliza una columna que comienza en 0 como índice de fila, o puede especificar la columna de identificación como índice de fila, pasando el parámetro index_col

 

 

 

Resultado: como puede ver, la columna de identificación se convierte en la columna de índice de fila.

 

Especificar índice de columna

De manera predeterminada, la primera fila es el índice de la columna, que también se puede especificar. Utilice el parámetro de encabezado, header = 0, para especificar el índice de la columna de la primera fila.

 

 

 

 

 

El resultado:

 

Especificar columna de importación

A veces queremos importar solo las columnas especificadas, luego pasar el parámetro usecols

 

 

 

El resultado:

 

2. Operaciones básicas sobre datos

Después de importar los datos, debe tener una comprensión general de los datos, como que el conjunto de datos tiene varias filas y columnas, cuál es el tipo de datos de cada campo y si hay valores nulos.

Vista previa

No tiene que quedarse sin datos por completo, solo mire las primeras líneas y use el método head para obtener las primeras 5 líneas de datos

 

 

 

El resultado:

 

También puede pasar números en head (), como previsualizar las primeras 10 líneas de datos

 

 

 

Ver dimensiones de datos

El conjunto de datos tiene varias filas y columnas, usando forma

 

 

 

Resultado: puede ver que el conjunto de datos df_list tiene 28452 filas y 16 columnas

 

Ver tipo de datos

Use dtypes para ver los tipos de datos de todos los campos en el conjunto de datos

 

 

 

El resultado:

 

También puede ver el tipo de datos de un campo por separado

 

El resultado:

 

Si quieres aprender Python o estás aprendiendo Python, hay muchos tutoriales de Python, pero ¿es el último? Tal vez haya aprendido algo que la gente podría haber aprendido hace dos años, y aquí comparto una ola de los últimos tutoriales de Python para 2020. ¡Cómo obtenerlo, puede obtenerlo gratis editando la "Información" de la carta privada!

Supongo que te gusta

Origin www.cnblogs.com/python0921/p/12722626.html
Recomendado
Clasificación