python爬取QQ说说并生成词云图，回忆满满 - 代码天地

python爬取QQ说说并生成词云图，回忆满满

编程语言 2018-05-21 00:11:10 阅读次数: 2

访问flyai.club，一键创建你的人工智能项目

作者 | 程序猿tx

https://juejin.im/post/5af7ef69f265da0b9b0769cb

当年的我还是那么风华正茂、幽默风趣...

言归正传，本次使用的是

selenium模拟登录+BeautifulSoup4爬取数据+wordcloud生成词云图

BeautifulSoup安装

pip install beautifulsoup4

下表列出了主要的解析器,以及它们的优缺点:

selenium模拟登录

使用selenium模拟登录QQ空间，安装pip install selenium

我用的是chrom浏览器，webdriver.Chrome()，获取Chrome浏览器的驱动。

这里还需要下载安装对应浏览器的驱动，否则在运行脚本时，会提示chromedriver executable needs to be in PATH错误，用的是mac，网上找的一篇下载驱动的文章，https://blog.csdn.net/zxy987872674/article/details/53082896

同理window的也一样，下载对应的驱动，解压后，将下载的**.exe 放到Python的安装目录，例如 D:\python 。同时需要将Python的安装目录添加到系统环境变量里。

qq登录页http://i.qq.com，利用webdriver打开qq空间的登录页面

driver = webdriver.Chrome()

driver.get("http://i.qq.com")

打开之后右击检查查看页面元素，发现帐号密码登录在login_frame里，先定位到所在的frame，driver.switch_to.frame("login_frame") ，再自动点击帐号密码登录按钮，自动输入帐号密码登录，并且打开说说页面，详细代码如下

这个时候可以看到已经打开了qq说说的页面了，注意部分空间打开之后会出现一个提示框，需要先模拟点击事件关闭这个提示框

同时因为说说内容是动态加载的，需要自动下拉滚动条，加载出全部的内容，再模拟点击下一页加载内容。

BeautifulSoup爬取说说

F12查看内容，可以找到说说在feed_wrap这个<div>，<ol>里面的<li>标签数组里面，具体每条说说内容在<div> class="bd"的<pre>标签中。

至此QQ说说已经爬取下来，并且保存在了qq_word文件里

词云图

使用wordcloud包生成词云图，

pip install wordcloud

这里还可以使用jieba分词，我并没有使用，因为我觉得qq说说的句子读起来才有点感觉，个人喜好，用jieba分词可以看到说说高频次的一些词语。

设置下wordcloud的一些属性，注意这里要设置font_path属性，否则汉字会出现乱码。

这里还有个要提醒的是，如果使用了虚拟环境的，不要在虚拟环境下运行以下脚本，否则可能会报错

我就遇到了这种情况，deactivate 退出了虚拟环境再跑的

至此，爬取qq说说内容，并生成词云图。

— End —

猜你喜欢

转载自blog.csdn.net/iFlyAI/article/details/80345894

python爬取QQ说说并生成词云图，回忆满满

python爬虫爬取QQ说说并且生成词云图，回忆满满！

python爬虫学习：爬虫QQ说说并生成词云图，回忆满满

爬虫QQ说说并生成词云图，回忆满满！比比谁更杀马特！

Python爬虫实战(6)-爬取QQ空间好友说说并生成词云(超详细)

利用Python动态爬取QQ说说并生成词云，分析朋友状况！

python 爬取视频评论生成词云图

python 爬取豆瓣电影短评并wordcloud生成词云图

Python从网页爬取JSON数据生成词云图

python爬取豆瓣影评，根据关键词生成词云图

python爬取qq空间说说

Python3.6 爬取QQ空间说说并输出词云

用Python爬取微博数据生成词云图片

python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。

利用Python爬取微博数据生成词云图片实例代码

爬虫——爬取人民网数据生成词云图

Python爬取动态说说，生成词云，看看朋友的现状

python爬虫+词云图，爬取网易云音乐评论

python生成词云图

python词云图的生成

第100篇博客——用Python爬取我前99篇博客内容，分词并生成词云图

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

python生成《稻香》的词云图

爬虫练习-爬取新浪微博信息并生成词云图

爬取B站up主视频弹幕并生成词云图（2020年5月）

【2019.05】python 爬取Bilibili弹幕【大碗宽面】绘制词云图

Python 爬取热词并进行分类数据分析-[云图制作(+)]

Python爬取姜子牙网上影评，实现词云图，你觉得姜子牙怎么样？

Python教你爬取某站视频弹幕，并绘制词云图（内含完整源码）

[超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)