爬虫Robots协议

京东Robots协议:
http://www.jd.com/robots.txt

User-agent: *                   #无论任何爬虫都应遵守如下协议
Disallow: /?*                   #任何爬虫都禁止访问以?开头的路径
Disallow: /pop/*.html           #任何爬虫都禁止访问pop/*.html
Disallow: /pinpai/*.html?*      #符合此通配符的依旧不允许爬虫访问
User-agent: EtaoSpider          #以下四个爬虫禁止访问任何资源
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User0agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /


#其中*代表所有,/代表根目录
  • 并非所有网站都有Robots协议(如教育部网址站)

猜你喜欢

转载自blog.csdn.net/qq_38722097/article/details/76663174