Python爬虫框架Scrapy爬取微博数据 - 代码天地

Python爬虫框架Scrapy爬取微博数据

其他 2019-03-27 15:30:51 阅读次数: 0

准备

安装第三方库requests和pymongo

安装MongoDB

创建一个weibo爬虫项目

如何创建Scrapy项目之前文章都已经提到了，直接进入主题。

创建Items

Item数据这部分我只需要个人信息，微博数，关注数、分数数这些基本信息就行。

编写Spider

为了方便爬虫，我们选择登陆的入口是手机版的微博

其中微博的uid可以通过访问用户资料页或者从关注的href属性中获取

代码中值得注意的地方有几个。

start_url

这里我们填写的是微博的uid，有的用户有自定义域名（如上图），要访问后才能得到真正的uid

start_url 填写的初始种子数要在10个以上。这是为了确保后面我们爬取到的新的种子能够加入到待爬取的队列中。10个以上的规定是从Scrapy文档中查得的

REACTOR_THREADPOOL_MAXSIZE

Default: 10

线程数是Twisted线程池的默认大小(The maximum limit for Twisted Reactor thread pool size.)

CloseSpider

当遇到不需要的继续爬取的连接时(如已经爬取过的链接，定义的僵尸粉链接等等)，就可以用CloseSpider关闭当前爬虫线程

编写middlewares

编写cookie的获取方法

这里我原本是想用手机版的微博去模拟登陆的，奈何验证码是在是太难搞了。所以我直接用网上有人编写好的登陆网页版微博的代码SinaSpider 这位写的很好，有兴趣的可以去看看。其中还有另一位写了模拟登陆（带验证码）经测试可用。只不过我还没想好怎么嵌入到我的项目中。

登陆-反爬虫的这部分应该是整个项目中最难的地方了。好多地方我都还不太懂。以后有空在研究

编写pipelines

这边只需要主要什么类型的Item存到那张表里就行了

运行一下程序，就能看到MongoDB中有了我们要的数据了

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88844376

Python爬虫框架Scrapy爬取微博数据

Python爬虫之微博评论数据的爬取（十）

【python爬虫-爬微博】爬取王思聪所有微博数据

python爬虫知识点总结（二十六）Scrapy+Tushare爬取微博股票数据

python爬虫框架Scrapy:股票数据爬取

python爬虫：爬取微博主页

六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

python爬虫练习--爬取所有微博

（廿四）Python爬虫：爬取微博并使用MongoDB存储

Python网络爬虫-爬取微博热搜

Python网络爬虫之爬取微博热搜

python爬虫爬取微博评论案例详解

分布式爬虫(5)：微博数据爬取

爬虫实例利用Ajax爬取微博数据

python3.5爬虫-爬取微博某博主微博内容

Python爬虫之手机端微博数据爬取（十二）

Python定时爬虫爬取微博热搜数据 pyecharts动态图展示

用python爬取微博评论数据，爬虫之路，永无止境。。（附源码）

Python微博爬取实战（三）爬虫获得的json格式数据如何处理

[Python爬虫]使用Scrapy框架爬取图虫图片

[Python爬虫]Scrapy框架爬取网易国内新闻

[Python爬虫]Scrapy框架爬取bilibili个人信息

[Python爬虫]使用Scrapy框架爬取淘宝

python爬虫框架Scrapy安装与爬取示例

Python爬虫框架Scrapy爬取企业信息

Python爬虫框架Scrapy爬取腾讯社招信息

python爬虫框架Scrapy爬取大众点评

python爬虫scrapy框架爬取糗妹妹段子首页

【scrapy框架】王者荣耀英雄信息爬取 python爬虫

Python爬虫：使用Scrapy框架进行高效爬取

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)