盗亦有道

网络爬虫的限制:
1.通过user_agent 对发送请求的协议来源进行筛选,来决定是否允许访问。
(可以通过在requests.get()的可选参数中更改headers来解除此项限制,实现访问)
2.发布公告:ROBOTS协议,该协议可以通过网页地址+/robots.txt观察到,是否允许访问,如果大规模对数据量进行爬取,而不遵守协议,会有法律风险。
类人行为可以不遵守协议,爬取数据量小,并且出于非商业利益。

猜你喜欢

转载自blog.csdn.net/qq_41694504/article/details/84671483