爬虫问题

今天爬虫爬了一天,速度出奇的慢,始终是单线程在运作,最后也没有爬完,爬了65%马上要停电了,只能先停了。

现在面临的问题:

1:爬虫始终是单线程,导致速度超级慢,有个方法是继承org.archive.crawler.frontier.QueueAssignmentPolicy这个类,重写他的getClassKey()方法,改变他的key值生成方式,并提供了ELFHash算法。

2:爬虫怎么实现断点爬网页。现在的问题是如果今天下不完明天就要重新下载。不知道怎样可以继续下载,或者可以实现以前下载下来的网页不用再重复下载。

进度不是我想像中的那么顺利。

猜你喜欢

转载自fffdd.iteye.com/blog/375817