Python爬取豆瓣电影的短评数据并进行词云分析处理 - 代码天地

Python爬取豆瓣电影的短评数据并进行词云分析处理

其他 2019-01-08 02:15:48 阅读次数: 0

前言

对于爬虫很不陌生，而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了，今天小编就介绍一下如果爬取豆瓣上面电影影评，以《我不是药神》为例。

基本环境配置

版本：Python3.6

系统：Windows

本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：960410445一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长，掌握Python核心技术，才是掌握真正的价值所在。

相关模块：

（1）requests：用来简单数据请求。

（2）lxml：比BeautiSoup更快更强的解析库。

（3）pandas：数据处理神器。

扫描二维码关注公众号，回复： 4822012 查看本文章

（4）time：设置爬虫访问间隔。

（5）random：生成随机数，配合time使用。

（6）tqdm：显示程序运行进度。

以上模块如果你没有安装可以在cmd命令提示符里进行pip install + 模块名 进行安装。

主要思路步骤

1、打开豆瓣电影《我不是药神》的短评网页，右键检查或者按F12，然后选择用户名和评论就会显示出对应的代码部分

正在上传...取消

2、通过requests模块发送一个get请求，并以utf-8重新编码；

3、添加一个交互，判断是否成功获取到资源（状态码为200），输出获取状态。

对于爬取下来《我不是药神》的短评内容，我们用lxml来进行解析。在步骤1中找到对应部分的代码，然后右键选择Copy，再选择Copy XPath，就能获取其路径了。

注意：

爬取下来的短评首尾可能有多余的空格，我们就需要使用字符串中的strip()方法来去掉这些多余的空格。

4、获取到数据之后，我们通过list构造dictionary，然后通过dictionary构造dataframe，并通过pandas模块将数据输出为csv文件

实现代码

运行结果

正在上传...取消

当然了，如果你想要用这些数据做成词云图，进行数据展示也是可以的。

词云实现代码

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/85855817

Python爬取豆瓣电影的短评数据并进行词云分析处理

python3.6爬取豆瓣电影《我不是药神》的短评、去停用词、词云分析处理

python 爬取豆瓣电影评论，并进行词云展示

简单爬取《小丑》电影豆瓣短评生成词云

python 爬取豆瓣电影短评并wordcloud生成词云图

python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法

详解使用Python爬取豆瓣短评并绘制词云

爬取豆瓣短评并输出词云

python爬虫-爬取爱情公寓电影（2018）豆瓣短评并数据分析

python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。

爬取豆瓣电影短评并使用词云简单分析top50

批量爬取豆瓣短评并批量生成词云

python爬取2019年猫眼电影并进行数据分析(一)

Python 爬取热词并进行分类数据分析-[拓扑数据]

用python爬豆瓣电影《热烈》短评

Python 爬取热词并进行分类数据分析-[云图制作(+)]

Python 爬取热词并进行分类数据分析-[App制作]

Python 爬取热词并进行分类数据分析-[安全性修复]

python爬虫，爬取豆瓣电影《芳华》电影短评，分词生成云图。

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

python实例：自动爬取豆瓣读书短评，分析短评内容

python爬取豆瓣网页短评实战！

Python爬取豆瓣指定书籍的短评

利用豆瓣短评数据生成词云

爬取复仇者联盟4豆瓣短评生成词云

python图形化界面 +爬取豆瓣电影影评+生成词云

使用Python爬取网站数据并进行图像处理

python爬取电影历史票房Top480并进行数据分析及其可视化

爬取豆瓣网影评数据并进行简单分析与展示

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)