学会这七个方法，再也不用担心 - 代码天地

学会这七个方法，再也不用担心

其他 2018-11-13 01:39:28 阅读次数: 0

【芝麻HTTP】我们在爬虫的时候经常会出现IP被封的情况，除了大家都知道的使用代理IP，还有什么方法呢？

方法一

之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。

经验如下：

需要大量IP时，可以直接使用成熟的代理IP服务商。芝麻HTTP就是一个很好的选择，更多可到官网咨询http://h.zhimaruanjian.com/

好处：

1.程序逻辑变化小，只需要代理功能。

2.根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了，你可以直接把IP代理下线就OK，程序逻辑不需要变化。

方法二

有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for，即可绕过。

扫描二维码关注公众号，回复： 4047671 查看本文章

大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是VPS再配多IP，通过默认网关切换来实现IP切换。

方法三

ADSL + 脚本，监测是否被封，然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

方法四

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理，有的网站对登陆用户政策宽松些

方法五

尽可能的模拟用户行为：

1、UserAgent经常换一换；

2、访问时间间隔设长一点，访问时间设置为随机数；

3、访问页面的顺序也可以随机着来

方法六

网站封的依据一般是单位时间内特定IP的访问次数.我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法七

1，对爬虫抓取进行压力控制；
2，可以考虑使用代理的方式访问目标站点。

猜你喜欢

转载自blog.csdn.net/wy940705/article/details/83862956

学会这七个方法，再也不用担心

学会这七个方法，再也不用担心账号被封

华为手机视频误删了怎么恢复，学会这个方法再也不用担心找不回

学会这5个时间管理黄金法则，再也不用愁时间不够用了~

学会这些电脑知识，再也不用担心BIOS界面看不懂了

书单丨刷完这5本题库，妈妈再也不用担心我的面试

5个视频剪辑素材库，再也不用担心找不到素材了

6个免费商用图片素材库，再也不用担心版权问题了

Android 查看jar包之间依赖的方法，解决包冲突问题，妈妈再也不用担心了

window电脑关闭自动更新的方法，妈妈再也不用担心我开机等电脑啦

程序员学会这几点再也不用担心bug！晚上踏踏实实睡大觉！

机器学习PAI，妈妈再也不用担心我的freestyle了

iOS–再也不用担心数组越界

iOS 妈妈再也不用担心我的数组越界了！！！

妈妈再也不用担心我的后端接口校验

有了它再也不用担心尴尬的问题

有了AOE，妈妈再也不用担心我的模型管理！

算法专题 | 链表（再也不用担心面试的链表题了）

Latex到Word，再也不用担心恶心的公式

万能头文件!!!再也不用担心CE

教会舍友玩 Git （再也不用担心他的学习）

FileYee自动备份，再也不用担心数据丢失

拥有BitWarden软件，再也不用担心忘记密码了

用好monitor，再也不用担心半夜生产接口“挂了”

妈妈再也不用担心我的C语言啦！

再也不用担心Shell脚本出错-ShellCheck

妈妈再也不用担心我重装VSCode了

妈妈再也不用担心我把数据弄丢了

靠谱的测试币平台，再也不用担心跑路了

BT资源搜索：有这10个网站找资源再也不用愁

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)