python3网络爬虫学习——基本库的使用（5）

分析Robots协议：

1.Robots协议

也称为爬虫协议，机器人协议，全称为网络爬虫排除标准，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件，一般放在网站的根目录下。当搜索爬虫访问一个站点时，会先检查这个站点根目录下是否有该文件，如果存在会根据其中定义的爬取范围来爬取，如果没有，爬虫会直接访问所有可以直接访问的页面。

下面介绍下robots.txt中的一些关键词：

User-agent：描述搜索爬虫的名称。比如Baiduspdider这代表对百度爬虫有效，设置为*则代表该协议对任何爬虫都有效

Disallow:爬虫不允许爬取的范围，如果为 / 则表示所有都不可以爬取

Allow:爬虫允许爬取的范围

每个爬虫都有属于自己的Disallow和Allow，当然Robots文件也可以为空

每个爬虫都有自己的名称，比如百度爬虫叫BaiduSpider，谷歌爬虫叫Googlebot等

2.robotparser

该模块提供了一个类RobotFileParser，他可以根据robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页

使用时可以只要在构造方法里传入robots.txt的链接即可

urllib.robotparser.RobotFileParser(url='')

也可用他的方法：

set_url：用来设置robots.txt的链接，如果在创建RobotFileParser的对象时传入了链接，就不再需要这个方法。
read：读取robots.txt文件并进行分析。一定要调用这个方法，不然后续的判断都会是False，这个操作相当于计算机执行了读取和分析操作，但不会返回任何内容
parse：传入的参数为robots.txt某些行的内容，用来解析文件
can_fetch：该方法传入两个参数，第一个是User-agent，第二个为要抓取的URL，返回的结果为True表示可以抓取
mtime：返回的是上次抓取和分析的robots.txt的时间，这对于长时间分析和抓取的搜索爬虫是很有必要的，你可能需要定期检查和抓取最新的robots.txt
modified：将当前时间设置为上次抓取和分析robots.txt的时间

from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
#也可将下面那步省略，直接rp = RobotFileParser()
rp.set_url('http://www.jianshu.com/robots.txt')
rp.read()
#也可以将这里改为rp.parse(urlopen(http://www.jianshu.com/robots.txt).read().decode('utf-8').split('/n'))
print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*',"http://www.jianshu.com/search?q=python&page=1&type=collections"))

由此我们可以分析步骤：

1.传入robot.txt链接

2.用read函数读取

3.分析链接哪些文件可以爬取

python3网络爬虫学习——基本库的使用（5）

猜你喜欢