爬虫的攻防技术(转载自自己购买的学习资料)

如何发现一个爬虫？一般情况下网站是不会大量的验证用户请求.除非你在访问重要数据.
- 1）单一的访问频次过高
  - 普通人,10秒访问一个网页, 爬虫一秒获取10个网页
- 2)单一的ip出现非常规的流量
- 3) 大量的重复简单的网页浏览行为
- 4) 只下载html文档, 不下载js
- 5) 在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden
- 6) 在页面写一段js代码, 浏览器直接执行, 程序不会执行
- 7) 判断请求头: user-agent
如何不被发现？
- 多主机的策略, 解决单一ip的问题, 分布式爬取
- 调整访问频次, 爬一会休息一下
- 通过不断切换ip, 或者直接使用ip代理的形式
- 频繁的修改user-agent头
  - https://blog.csdn.net/tao_627/article/details/42297443
- Header中的Cache-Control修改为no-cache
- 当返回状态码是403（服务器资源禁止访问），改变Header和IP。不断改变
public static void main(String[] args) throws Exception {
       HttpGet httpGet = new HttpGet("https://news.163.com/");

   //我是专门用来模拟浏览器，让我的请求看起来和真实的浏览器一样
       httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
       httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");
       httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
       httpGet.setHeader("Cache-Control", "no-cache");
       httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");
       httpGet.setHeader("Host", "news.163.com");
       httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
       httpGet.setHeader("referer","http://news.163.com/");

       CloseableHttpClient httpClient = HttpClients.createDefault();
       CloseableHttpResponse res = httpClient.execute(httpGet);
       HttpEntity entity = res.getEntity();
       String html = EntityUtils.toString(entity,"utf-8");
       System.out.println(html);
   }

黄道婆

发布了106 篇原创文章 · 获赞 4 · 访问量 1万+

私信关注

爬虫的攻防技术(转载自自己购买的学习资料)

爬虫的攻防技术(转载自自己购买的学习资料)

猜你喜欢