爬虫数据分析携程酒店:pandas结合matplotlib

#本篇主要是针对抓取下来的数据进行进一步的清晰和提取有用信息,并且可视化

1.数据提取,这部分我就直接用之前的数据,总共7000多条
在这里插入图片描述

2.读取和实现,我把代码先放上,具体有备注

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl  # 配置字体
import jieba
from  wordcloud import WordCloud


mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"] #配置字体,不然汉字有的显示不正常

df=pd.read_csv(r"C:\Users\Administrator\bjjiudiannew.csv",encoding="utf-8")
df=df.fillna(0)
b=df.shape
print(b)
print(type(b))
# aa=df[df["星级"]>3]["星级"]
# bb=df[df["星级"]>3]["评分"]
# print(aa)
# plt.bar(bb)
# plt.show()
df["档次"].value_counts().plot(kind='bar',rot=33,) #rot为偏移斜度,
plt.show()
df["档次"].value_counts().plot(kind='pie',rot=33,autopct='%1.2f%%', explode =np.linspace(0,0.5,8)) #autopct百分数小数,explode 8一定为整个份数相同
plt.show()

#因为分词不支持分数字,之前空值填充了0,所以取小个范围测试
nn=""
for n in range(20):
    lists=list(jieba.cut(df["用户点评"][n]))
    print(lists)
    for mm in lists:
        nn=nn+mm
        print(type(mm))
#
mylist=WordCloud(font_path=r"C:\Windows\Fonts\simkai.ttf",width=1900,height=1500).generate(nn)
plt.imshow(mylist)
plt.axis("off")
plt.show()

a)分析酒店档次分布

在这里插入图片描述
在这里插入图片描述

b)用户点评分词云图分析
在这里插入图片描述

c)多因子分析(档次,星级,推荐),这是通过可视化分析平台http://app.rawgraphs.io/ 实现
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42357472/article/details/83041103
今日推荐