Python网络爬虫(二)——Robots协议

1. Robots协议的作用与形式

Robots全称为Robot Exclusion Standard ,即网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件

(如果无robots.txt文件,可以随便爬取该网站的任何内容)

2. Robots协议基本语法

# 注释,*代表所有,/代表根目录

User-agent: *

Disallow: /

3. Robots协议的使用

网络爬虫:自动或人工识别robots.txt文件,在进行内容爬取

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

4. 对Robots协议的理解

访问量很小:可以遵守

访问量较大:建议遵守

非商业且偶然:建议遵守

商业利益:必须遵守

必须遵守
爬取网页 玩转网页 爬取网站 爬取系列网站

爬取全网

(如果一天访问几次或者一小时访问一次,这种不频繁的爬取,可以不遵守Robots协议)

5. 案例:京东的Robots协议

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

 

 

发布了53 篇原创文章 · 获赞 117 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_40431584/article/details/89039893
今日推荐