利用Python爬取微博数据生成词云图片实例代码 - 代码天地

利用Python爬取微博数据生成词云图片实例代码

其他 2019-05-11 20:30:57 阅读次数: 0

前言

在很早之前写过一篇怎么利用微博数据制作词云图片出来，之前的写得不完整，而且只能使用自己的数据，现在重新整理了一下，任何的微博数据都可以制作出来，一年一度的虐汪节，是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦，七夕送什么才有心意，程序猿可以试试用一种特别的方式来表达你对女神的心意。有一个创意是把她过往发的微博整理后用词云展示出来。本文教你怎么用Python快速创建出有心意词云，即使是Python小白也能分分钟做出来。下面话不多说了，来一起看看详细的介绍吧。

准备工作

本环境基于Python3，理论上Python2.7也是可行的，先安装必要的第三方依赖包：

# requirement.txt

jieba==0.38

matplotlib==2.0.2

numpy==1.13.1

pyparsing==2.2.0

requests==2.18.4

scipy==0.19.1

wordcloud==1.3.1

requirement.txt文件中包含上面的几个依赖包，如果用pip方式安装失败，推荐使用Anaconda安装

pip install -r requirement.txt

第一步：分析网址

打开微博移动端网址 https://m.weibo.cn/searchs ，找到女神的微博ID，进入她的微博主页，分析浏览器发送请求的过程

打开 Chrome 浏览器的调试功能，选择 Network 菜单，观察到获取微博数据的的接口是 https://m.weibo.cn/api/container/getIndex ，后面附带了一连串的参数，这里面有些参数是根据用户变化的，有些是固定的，先提取出来。

再来分析接口的返回结果，返回数据是一个JSON字典结构，total 是微博总条数，每一条具体的微博内容封装在 cards 数组中，具体内容字段是里面的 text 字段。很多干扰信息已隐去。

第二步：构建请求头和查询参数

分析完网页后，我们开始用 requests 模拟浏览器构造爬虫获取数据，因为这里获取用户的数据无需登录微博，所以我们不需要构造 cookie信息，只需要基本的请求头即可，具体需要哪些头信息也可以从浏览器中获取，首先构造必须要的请求参数，包括请求头和查询参数。

id是微博用户的id

containerid虽然不什么意思，但也是和具体某个用户相关的参数

page 分页参数

第三步：构造简单爬虫

通过返回的数据能查询到总微博条数 total，爬取数据直接利用 requests 提供的方法把 json 数据转换成 Python 字典对象，从中提取出所有的 text 字段的值并放到 blogs 列表中，提取文本之前进行简单过滤，去掉无用信息。顺便把数据写入文件，方便下次转换时不再重复爬取。

第四步：分词处理并构建词云

爬虫了所有数据之后，先进行分词，这里用的是结巴分词，按照中文语境将句子进行分词处理，分词过程中过滤掉停止词，处理完之后找一张参照图，然后根据参照图通过词语拼装成图。

最终效果图：

完整示例代码如下：

猜你喜欢

转载自blog.csdn.net/fei347795790/article/details/90111166

利用Python爬取微博数据生成词云图片实例代码

用Python爬取微博数据生成词云图片

Python从网页爬取JSON数据生成词云图

爬虫练习-爬取新浪微博信息并生成词云图

爬虫实例利用Ajax爬取微博数据

利用python爬取微博热搜榜制作词云图

【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据（免登陆）到生成词云

python爬取QQ说说并生成词云图，回忆满满

python 爬取视频评论生成词云图

python 爬取豆瓣电影短评并wordcloud生成词云图

爬虫——爬取人民网数据生成词云图

python小白也可以分分钟爬取微博数据，并生成有个性的词云，你get到了吗？

生成微博内容词云图

python爬取微博图片及内容

python爬取豆瓣影评，根据关键词生成词云图

python利用wordcloud生成词云图

python利用wordcloud模块生成词云图

python爬虫爬取QQ说说并且生成词云图，回忆满满！

python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。

python-生成词云图片

python 爬取微博实时热搜，并存入数据库实例

爬取微博数据

微博爬取数据

Python —— 爬取成果微博相册图片 ——明星

python爬取微博热门消息（四）—— 完整代码

python爬取微博用户信息（六）—— 完整代码

Python 爬取热词并进行分类数据分析-[云图制作(+)]

利用Ajax实现数据爬取------爬取微博主页

python爬虫+词云图，爬取网易云音乐评论

【python爬虫-爬微博】爬取王思聪所有微博数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)