Capacitación en visualización y análisis de datos de Python: análisis de datos y visualización del conjunto de datos de sugerencias de Excel

1. Propósito experimental

Esta capacitación trata principalmente sobre el análisis de datos y la visualización del conjunto de datos de punta.

2. Datos experimentales

El conjunto de datos de sugerencias experimentales proviene de los datos que vienen con la biblioteca de Python Seaborn, que se ha convertido en un conjunto de datos de tipo Excel
.
Por favor agregue la descripción de la imagen.

3. Operación experimental

1. Importar módulo

#导入实验需要的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']#用来显示中文标签
plt.rcParams['axes.unicode_minus']=False#用来显示负号
%matplotlib inline

2. Obtenga los datos,
importe los datos y muestre las primeras 5 filas.

fdata=pd.read_excel('C:/Users/leglon/Desktop/ch4/tips.xls')#读取数据,在此需要导入xls的环境
fdata.head()#输出前五行

Por favor agregue la descripción de la imagen.

Aquí necesita instalar el entorno xlrd con anticipación, de lo contrario pueden ocurrir errores fácilmente: ImportError: Falta la dependencia opcional 'xlrd'. Instale xlrd >= 1.0.0 para soporte de Excel Use pip o conda para instalar xlrd. Para resolver este problema, simplemente abra cmd e
ingrese:, pip install xlrdsolo espere a que se complete la instalación. O vaya a anaconda para descargar e instalar el entorno xlrd.
Pasos: anaconda—>Entornos—>tensorflow—>No instalado, ingrese: xlrd, marque la opción emergente y luego haga clic en Aplicar. Simplemente ábrelo de nuevo.
Por favor agregue la descripción de la imagen.

3. Ver información de datos

fdata.describe()#查看数据描述

Por favor agregue la descripción de la imagen.
4. Modifique el nombre de la columna a chino.

#修改为汉字,并且显示前五行数据
fdata.rename(columns={
    
    'total_bill':'消费总额','tip':'小费','sex':'性别','smoker':'是否吸烟','day':'星期','time':'聚餐时间段','size':'人数'},inplace=True)
fdata.head()

Por favor agregue la descripción de la imagen.
5. Ver las 5 principales líneas de consumo per cápita

#人均消费,显示前五行
fdata['人均消费']=round(fdata['消费总额']/fdata['人数'],2)
fdata.head()

6. Encuentre datos en el conjunto de datos donde el consumo per cápita de hombres fumadores sea superior a 15

#查询吸烟男性中消费大于15的数据
fdata.query('是否吸烟=="Yes"&性别=="Male"&人均消费>15')

Por favor agregue la descripción de la imagen.
7. Comprueba la relación entre el consumo total y las propinas

fdata.plot(kind='scatter',x='消费总额',y='小费')#查看消费总额与小费的关系

Por favor agregue la descripción de la imagen.

En la figura se puede ver que existe una correlación positiva entre las propinas y el consumo total.

8. Comprueba la relación entre fumar y dar propinas

fdata.plot(kind='scatter',x='是否吸烟',y='小费')#查看是否吸烟与小费的关系

Por favor agregue la descripción de la imagen.
En la figura se puede ver que la relación entre fumar y dejar propinas tiene poco impacto.

9. Compara los datos de consumo total de hombres y mujeres.

fdata.groupby('性别')['消费总额'].mean()

Por favor agregue la descripción de la imagen.

Se puede observar que los hombres consumen más que las mujeres.

10. Vea cómo se compara la generosidad entre géneros.

#查看性别的慷慨程度对比
fdata.groupby('性别')['小费'].mean()

Por favor agregue la descripción de la imagen.
Los hombres dan más propina que las mujeres.
11. Analiza la relación entre semana y propina.

#分析星期与小费的关系
print(fdata['星期'].unique())#显示星期的取值
r=fdata.groupby('星期')['小费'].mean()
fig=r.plot(kind='bar',x='星期',y='小费',fontsize=12,rot=30)
fig.axes.title.set_size(16)

Por favor agregue la descripción de la imagen.
En la figura se puede ver que las propinas son mayores los sábados y domingos que los jueves y viernes.

12. Analizar la generosidad de las combinaciones de género y tabaquismo.

#分析性别与吸烟组合的慷慨度
r=fdata.groupby(['性别','是否吸烟',])['小费'].mean()
fig=r.plot(kind='bar',x=['性别','是否吸烟'],y='小费',fontsize=12,
rot=30)
fig.axes.title.set_size(16)

Por favor agregue la descripción de la imagen.
Se puede observar que los hombres no fumadores son más generosos y dan más propinas; las mujeres no fumadoras son más generosas que las fumadoras.

13. Analiza la relación entre la hora de cenar y las propinas.

#分析聚餐时间段与小费的关系
r=fdata.groupby(['聚餐时间段'])['小费'].mean()
fig=r.plot(kind='bar',x='聚餐时间段',y='小费',fontsize=15,rot=30)
fig.axes.title.set_size(16)

Por favor agregue la descripción de la imagen.

Puedes ver en la imagen que las propinas son mayores durante la cena que durante el almuerzo.

14. Analiza la relación entre el número de personas y las propinas.

#分析人数与小费的关系
r=fdata.groupby(['人数',])['小费'].mean()
fig=r.plot(kind='bar',x='人数',y='小费',fontsize=15,rot=30)
fig.axes.title.set_size(16)

Por favor agregue la descripción de la imagen.

Se puede ver en la imagen que cuanta más gente haya en la cena, más propinas se darán.

4. Resumen

El aprendizaje de la visualización de datos juega un papel importante para nosotros. Podemos obtener información importante analizando los datos, lo que nos permite comprender mejor los eventos y brindarnos más formas de responder a los eventos.

Supongo que te gusta

Origin blog.csdn.net/qq_62127918/article/details/130512822
Recomendado
Clasificación