# 数据清洗import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_excel(r'D:\Desktop\汽车用户消费投诉.xlsx')
data
# # 检查DataFrame中每行数据是否有重复的数据行# mask = data.duplicated()# mask# data[~mask]# 通过DataFrame内置方法去除重复的行数据
data = data.drop_duplicates()
data
data.to_excel(r'D:\Desktop\汽车用户消费投诉数据.xlsx')
投诉最多的二十大车型
# 投诉最多的二十大车型import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_excel(r'D:\Desktop\汽车用户消费投诉数据.xlsx')# data
result = data.groupby(by='brand')[['brand']].count()
result['数量']= data.groupby(by='brand_model')[['brand_model']].count()
result = result.sort_values(by='数量',ascending=False)
result = result.iloc[:20]# 1.创建画布
plt.figure(figsize=(20,8),dpi=300)# 2.绘图# 绘制会员存量柱状图
plt.bar(result.index,result['数量'],width=0.5)# 设置新绘图区y轴的刻度
yticks =range(0,2000,100)# 3.展示
plt.show()
投诉最多的十大品牌
# 投诉最多的十大品牌import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_excel(r'D:\Desktop\汽车用户消费投诉数据.xlsx')# data
result = data.groupby(by='brand')[['brand']].count()
result['数量']= data.groupby(by='brand')[['brand']].count()
result = result.sort_values(by='数量',ascending=False)
result = result.iloc[:10]# 1.创建画布
plt.figure(figsize=(20,8),dpi=300)# 2.绘图# 绘制会员存量柱状图
plt.bar(result.index,result['数量'],width=0.5)# 设置新绘图区y轴的刻度
yticks =range(0,2000,100)# 3.展示
plt.show()
最不靠谱的10大经销商
# 最不靠谱的10大经销商import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_excel(r'D:\Desktop\汽车用户消费投诉数据.xlsx')
data
result = data.groupby(by='shop')[['shop']].count()
result['数量']= data.groupby(by='shop')[['shop']].count()
result = result.sort_values(by='数量',ascending=False)
result
result = result.iloc[1:11]# 1.创建画布
plt.figure(figsize=(20,8),dpi=300)# 2.绘图# 绘制会员存量柱状图
plt.bar(result.index,result['数量'],width=0.5)# 设置新绘图区y轴的刻度
yticks =range(0,2000,100)# 3.展示
plt.show()
最近一年本网站接到的投诉数据趋势
# 最近一年本网站接到的投诉数据趋势import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_excel(r'D:\Desktop\汽车用户消费投诉数据.xlsx')
data
# 2.数据处理
data['投诉年月']= pd.DatetimeIndex(data['feedback_time']).strftime('%Y%m')
data.head()
result = data.groupby(by='投诉年月')[['投诉年月']].count()
result['数量']= data.groupby(by='投诉年月')[['投诉年月']].count()
result = result.iloc[-12:-1]
result
# 1.创建画布
plt.figure(figsize=(20,8),dpi=300)# 2.绘图# 绘制会员增量的折线图
ax = plt.twinx()
ax.plot(result.index,result['数量'],color='r')# 3.展示
plt.show()