python3网络爬虫学习——基本库的使用(5)

分析Robots协议:

1.Robots协议

也称为爬虫协议,机器人协议,全称为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件,一般放在网站的根目录下。当搜索爬虫访问一个站点时,会先检查这个站点根目录下是否有该文件,如果存在会根据其中定义的爬取范围来爬取,如果没有,爬虫会直接访问所有可以直接访问的页面。

下面介绍下robots.txt中的一些关键词:

User-agent:描述搜索爬虫的名称。比如Baiduspdider这代表对百度爬虫有效,设置为*则代表该协议对任何爬虫都有效

Disallow:爬虫不允许爬取的范围,如果为 / 则表示所有都不可以爬取

Allow:爬虫允许爬取的范围

每个爬虫都有属于自己的Disallow和Allow,当然Robots文件也可以为空

每个爬虫都有自己的名称,比如百度爬虫叫BaiduSpider,谷歌爬虫叫Googlebot等

2.robotparser

该模块提供了一个类RobotFileParser,他可以根据robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页

使用时可以只要在构造方法里传入robots.txt的链接即可

         urllib.robotparser.RobotFileParser(url='')

也可用他的方法:

  • set_url:用来设置robots.txt的链接,如果在创建RobotFileParser的对象时传入了链接,就不再需要这个方法。
  • read:读取robots.txt文件并进行分析。一定要调用这个方法,不然后续的判断都会是False,这个操作相当于计算机执行了读取和分析操作,但不会返回任何内容
  • parse:传入的参数为robots.txt某些行的内容,用来解析文件
  • can_fetch:该方法传入两个参数,第一个是User-agent,第二个为要抓取的URL,返回的结果为True表示可以抓取
  • mtime:返回的是上次抓取和分析的robots.txt的时间,这对于长时间分析和抓取的搜索爬虫是很有必要的,你可能需要定期检查和抓取最新的robots.txt
  • modified:将当前时间设置为上次抓取和分析robots.txt的时间
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
#也可将下面那步省略,直接rp = RobotFileParser()
rp.set_url('http://www.jianshu.com/robots.txt')
rp.read()
#也可以将这里改为rp.parse(urlopen(http://www.jianshu.com/robots.txt).read().decode('utf-8').split('/n'))
print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*',"http://www.jianshu.com/search?q=python&page=1&type=collections"))

由此我们可以分析步骤:

1.传入robot.txt链接

2.用read函数读取

3.分析链接哪些文件可以爬取

猜你喜欢

转载自www.cnblogs.com/gausstu/p/9500929.html
今日推荐