网络爬虫防止被封的策略

编程语言 2018-05-11 21:37:35 阅读次数: 1

网络爬虫防止被封的策略和反反爬策略简单总结

今天不想工作，比较累，遇到一个网站反爬比较严重，不说具体哪个名字了，简单总结下爬虫防封策略

1，伪装http 头

chrome 开发者模式，firebug等抓包工具，查看http 进行模拟User-Agent，有的需要加上Referer，可以多加入几个http user

2，代理ip，对于限制ip 或者ip被封的采用代理ip

代理ip 可以抓取，本人每天监控十多个网站，每天能抓取一批，计划以后每天公布几个可以访问百度的代理ip，注意用高匿的最安全

3，有些需要进行登录

进行模拟登录，或者手动登录了记下cookie 天上

4，验证码

目前有些简单的验证码机器可以识别下，有些不行，需要人工输入，当出现反爬，报警后，再人工干预下

5，注意抓取频度

这是反爬的一个最简单，但是很实用的方式

6，可以使用拨号的ip，定期拨号更换ip，注意间断一段时间，保证ip变化

7，采用模拟浏览器的一些方式，进行模拟人的行为，包括自动填表，自动点击，自动滑动滚动条等，可以用selenium 和htmlunit 实现，phtomjs 也是一个不错的选择

8，分析网站反爬的一些策略，进行相应的反反爬策略去除，比如有些转为爬虫设置的一些坑，需要识别出来，具体大家可以搜搜一些

猜你喜欢

转载自1634801662.iteye.com/blog/2353871

网络爬虫防止被封的策略

避免网络爬虫IP被封的策略

python爬虫防止IP被封

python爬虫防止IP被封的一些措施

反爬虫技术之防止IP地址被封杀

scrapy防止爬虫被禁的策略

Python爬虫：防止爬虫被禁的策略

防止爬虫被反几个常见策略

网络爬虫策略介绍

网络爬虫简单策略

网络爬虫的爬行策略

网络爬虫的抓取策略

聚焦网络爬虫的策略

通用网络爬虫的策略

使用代理ip防止爬虫被封ip(附蘑菇代理开发过程)

Python反爬虫技术之防止IP地址被封杀的讲解

爬虫06_基于代理服务器爬数据防止ip被封

爬虫被封禁原因

爬虫被封原因

1.4 网络爬虫采集策略

scrapy基础知识之防止爬虫被反的几个策略

网络端口被封

听说你的爬虫被封了?

干货！爬虫被封不要急

网络爬虫之网页更新的判断策略

网络爬虫一定用代理IP吗？不用代理IP加快速度会被封吗？

干货|爬虫被封的几个常见原因

防止SQL注入策略

防止DDOS策略

Python爬取大量数据时防止被封IP

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)