想爬取各大网站的小姐姐?这份爬虫速成指南送你了!包学会哦!

 

 

 

在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。

代码如下:

 

 

解析

1.试试神奇的xpath

 

 

扫描二维码关注公众号,回复: 1569823 查看本文章

 

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函数改成:

 

我们再次运行一下,你就可以看到输出“坛星际区”第一页所有帖子的标题和url了。

递归

 

完整的代码如下:

 

 

Pipelines——管道

现在是对已抓取、解析后的内容的处理,我们可以通过管道写入本地文件、数据库。

 

 

3.在爬虫中调用这个处理方法。

 

 

4.在配置文件里指定这个pipeline

 

 

可以这样配置多个pipeline:

 

Middleware——中间件

 

1.Middleware的配置

 

 

2.破网站查UA, 我要换UA

 

这里就是一个简单的随机更换UA的中间件,agents的内容可以自行扩充。

3.破网站封IP,我要用代理

 

 

 

 

3.在爬虫中调用这个处理方法。

 

 

4.在配置文件里指定这个pipeline

 

 

可以这样配置多个pipeline:

 

Middleware——中间件

 

1.Middleware的配置

 

 

2.破网站查UA, 我要换UA

 

这里就是一个简单的随机更换UA的中间件,agents的内容可以自行扩充。

3.破网站封IP,我要用代理

 

 

 

 

3.在爬虫中调用这个处理方法。

 

 

4.在配置文件里指定这个pipeline

 

 

可以这样配置多个pipeline:

 

Middleware——中间件

 

1.Middleware的配置

 

 

2.破网站查UA, 我要换UA

 

这里就是一个简单的随机更换UA的中间件,agents的内容可以自行扩充。

3.破网站封IP,我要用代理

 

 

 

进去   125240963  即可获取源码!

猜你喜欢

转载自www.cnblogs.com/PY2578/p/9172880.html