爬虫分类及robots协议

爬虫分类:
根据网络爬虫的尺寸:

  1. 爬取网页,玩转网页:小规模,数据量小,爬取速度不敏感,requests库
  2. 爬取网站,爬取系列网站:中规模爬虫,爬取规模较大,速度比较敏感,Scrapy库
  3. 爬取全网:大规模,搜索引擎,爬取速度关键
    问题:
    网络爬虫会对网络资源带来巨大的开销,可能给个人带来隐私泄漏,还有一定的法律风险。
    网络爬虫的限制:
    1,来源审查:判断user-agent进行限制
    2,发布公告:Robots协议
    Robots协议:网络爬虫排除标准
    网站告诉爬虫哪些内容可以爬取,哪些不行。
    在网站根目录下的robots.txt文件
    robots协议的使用:自动或人工识别robots.txt,再进行内容爬取。

猜你喜欢

转载自blog.csdn.net/NKidult/article/details/82150459