爬虫部分
首先说明一下目标和工具
软件:python3.6
packages:seleniumjieba snownlp wordcloud
后三个是之后文本分析用的。
目标网址:https://movie.douban.com/subject/26636712/comments?status=P
本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:960410445一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。
代码如下
爬短评
代码:
调用以上两个函数爬取数据,其实对于豆瓣上别的电影影评,估计稍微改一改也可以爬了
url = 'https://movie.douban.com/subject/26636712/comments?status=P'
result = getComment(url)
最终爬下来的数据大概是这样子
文本分析
描述统计分析
首先看一看拿到的样本中各星级评价的分布情况,None表示没有星级评价。
整体来看,三星四星评价巨多,说明大家对于蚁人2整体评价还不错。
再来看看哪些短评大家最认可,投票数最多
情感分析
先来看看正面评价,sentiment表示情感得分。
恩,看上去正面评价基本都是高星级评分的观众给出的,有理有据,令人信服。再来看看负面评价
分词词云
通过jieba进行分词,根基TF-IDF算法提取关键词,代码及部分关键词如下
关键词
分词结果来看,"彩蛋"毫无疑问是是蚁人2中大家最关心的点。最后,以蚁人分词词云作为文章结尾!
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。