heritrix 下载不通过服务器缓存 - 代码天地

heritrix 下载不通过服务器缓存

编程语言 2018-05-14 11:34:51 阅读次数: 4

最近爬虫下载论坛时出现了一些奇怪的问题。
1.下载一半就无法下载
2.下载了很多空页面，提示说页面不存在

问题一：原因分析，由于网站对一个IP在一个时间片内访问太频繁，导致封IP。
解决方案：减缓爬虫下载间隔，多个网站一起下载，而且网站越多越好，可以错开下载。

问题二：初步分析，下载的页面是html的，怎么可能有这个问题？因为下载的论坛是开源的discuz，我们都知道discuz有一个缓存机制，管理员可以删除帖子，可是被删除的帖子还存在服务器缓存中，由此可以证明那些html都是伪静态的页面，而且爬虫下载是通过服务器缓存的。通过日志可以发现：类似于百度,google这类的大网站，他们的爬虫都是不通过服务器缓存的。

爬虫也是通过 URLConnection 啊那什么HTTPURLConnection 还是 httpclient 都继承这个建立连接服务器返回给你什么就是什么，做了缓存服务器就返回给你缓存

爬虫通过URL建立Socket，和服务器通信，获取资源即可。所以抓不抓后台，在于服务器给它什么资源.爬虫是不知道什么后台不后台的。都是服务器给它资源，也就是InputStream

猜你喜欢

转载自wangwei3.iteye.com/blog/732206

heritrix 下载不通过服务器缓存

heritrix 3.2.0 下载

heritrix下载，安装，使用

Heritrix

heritrix-3.1.1 下载链接

Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

Heritrix3.0教程(二) 下载安装与运行

Heritrix简介

Heritrix maven

邮件服务器证书认证不通过

Heritrix源码分析(七) Heritrix总体介绍

Heritrix学习及部署（三）

Heritrix配置及扩展

heritrix queue 分配策略

Heritrix 3配置过程

heritrix中的Frontier学习

Heritrix学习及部署（二）

Heritrix学习及部署（一）

Heritrix 3.1.2搭建

Heritrix 抓取高级篇

Heritrix使用入门

Heritrix3.1.0的使用

heritrix 3.2.0 -- 环境搭建

Heritrix使用的初步总结

扩展和定制Heritrix

网络爬虫heritrix

Heritrix架构分析

Heritrix去重

在Eclipse中构建Heritrix

lucene2.0+heritrix

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)