爬取猫眼评论，分析《阿丽塔：战斗天使》

文章首发于慕课网

日本漫画《铳梦》改编电影《阿丽塔：战斗天使（Alita: Battle Angel）》于2019年2月22日在中国大陆上映了。近几天，网上对于这部电影的分析评论也很多，今天通过猫眼电影上的评论粗浅地看一下大众对这部科幻电影的评价。
在这里插入图片描述

工具库

jieba
pyecharts
wordcloud
matplotlib

分析网站

通过在浏览器模拟移动端请求评论的数据，可以看到随着页面的更改url并没有发生变化，初步判断该网页是通过js加载的。通过多次的实践，找到了请求返回的真实url和关键参数，这里返回的是json格式的数据，里面有我们需要的信息。
在这里插入图片描述

通过比较多次请求信息，发现以下的参数
在这里插入图片描述

其中，offset是每次请求的起始评论条数；limit是每次请求的条数；ts我猜测应该是时间戳，不用管它

抓取信息

通过返回的json数据，选取其中的content,score,nick ,gender这四个参数，将这些信息写入一个文本中保存起来。
在这里插入图片描述

    def get_comments(self):
        '''
        爬取评论信息
        :return:
        '''
        for i in range(0, 14352, 15):
            URL = self.url.format(i)
            data = requests.get(url=URL, headers=self.header)
            time.sleep(random.random() * 3)
            com = json.loads(data.text)
            comments = com['data']['comments']
            if comments:
                for item in comments:
                    data = {
                        'content': item['content'],
                        'score': item['score'],
                        'nick': item['nick'],
                        'gender': item['gender'],
                    }
                    print(data)
                    # 存入文本中
                    with open('comments.txt', 'a+', encoding='UTF-8') as file:
                        file.writelines(
                            json.dumps(data, ensure_ascii=False) + '\n')
            else:
                break

数据分析

由于爬取的数据都是比较规整，并且没有选择太多的特征，所以就跳过清洗阶段，直接进行分析。为了便于观察，这里使用pyecharts进行可视化处理。

1. 评论词云

通过词云，能够一目了然地知道这些精选评论都说了些什么。由于使用pyecharts制作词云需要比较繁琐的处理，所以直接使用jieba分词并用WordCloud进行制作词云。

def get_wordcloud(self):
        '''
        制作词云图
        :return:
        '''
        text = self.get_context()
        seg_list = jieba.cut(text, cut_all=True)
        wc = WordCloud(background_color="#CCC",  # 设置背景颜色
                       # mask = pic , #设置背景图片
                       max_words=2000,  # 设置最大显示的字数
                       margin=5,
                       font_path="C:\\Windows\\Fonts\\STFANGSO.ttf",  # 不加这一句显示口字形乱码
                       max_font_size=80,  # 设置字体最大值
                       random_state=40,  # 设置有多少种随机生成状态，即有多少种配色方案
                       )
        w1 = "/ ".join(seg_list)  # 全模式
        mword = wc.generate(w1)
        plt.imshow(mword)
        plt.axis("off")
        plt.savefig('wordcloud.png')  # 保存图片
        plt.show()