Python爬取《蚁人2》豆瓣影评+简单情感分析+词云

 爬虫部分

首先说明一下目标和工具

软件:python3.6

packages:seleniumjieba  snownlp  wordcloud

后三个是之后文本分析用的。

目标网址:https://movie.douban.com/subject/26636712/comments?status=P

本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:960410445一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。

代码如下

爬短评

代码:


调用以上两个函数爬取数据,其实对于豆瓣上别的电影影评,估计稍微改一改也可以爬了

url = 'https://movie.douban.com/subject/26636712/comments?status=P'

result = getComment(url)

最终爬下来的数据大概是这样子


文本分析

描述统计分析

首先看一看拿到的样本中各星级评价的分布情况,None表示没有星级评价。

整体来看,三星四星评价巨多,说明大家对于蚁人2整体评价还不错。

再来看看哪些短评大家最认可,投票数最多

情感分析


先来看看正面评价,sentiment表示情感得分。

恩,看上去正面评价基本都是高星级评分的观众给出的,有理有据,令人信服。再来看看负面评价

分词词云

通过jieba进行分词,根基TF-IDF算法提取关键词,代码及部分关键词如下


关键词

分词结果来看,"彩蛋"毫无疑问是是蚁人2中大家最关心的点。最后,以蚁人分词词云作为文章结尾!

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/86574631