python爬虫--02 robots协议

1 robots协议介绍

爬虫引发的问题

性能骚扰
法律风险
隐私泄漏

爬虫限制机制

来源审查:判断User‐Agent进行限制
发布公告:Robots协议

Robots协议

Robots Exclusion Standard,网络爬虫排除标准,放在网站根目录下的robots.txt文件,告知网络爬虫哪些页面可以抓取,哪些不行
发布了108 篇原创文章 · 获赞 7 · 访问量 5194

猜你喜欢

转载自blog.csdn.net/qq_25672165/article/details/104906364