爬虫问题 - 代码天地

爬虫问题

编程语言 2018-05-14 19:00:19 阅读次数: 2

今天爬虫爬了一天，速度出奇的慢，始终是单线程在运作，最后也没有爬完，爬了65%马上要停电了，只能先停了。

现在面临的问题：

1：爬虫始终是单线程，导致速度超级慢，有个方法是继承org.archive.crawler.frontier.QueueAssignmentPolicy这个类，重写他的getClassKey（）方法，改变他的key值生成方式，并提供了ELFHash算法。

2：爬虫怎么实现断点爬网页。现在的问题是如果今天下不完明天就要重新下载。不知道怎样可以继续下载，或者可以实现以前下载下来的网页不用再重复下载。

进度不是我想像中的那么顺利。

猜你喜欢

转载自fffdd.iteye.com/blog/375817

爬虫的几个问题

爬虫常见问题。

python爬虫常见问题（一）

爬虫常见问题与解答

Python爬虫常见问题总结

Python爬虫常见问题

爬虫常见问题汇总

反爬虫一些问题

Python爬虫面试常见问题

关于前嗅Forespider爬虫的常见问题答疑

使用爬虫遇到的一些问题

网络爬虫设计中需要注意的几个问题

网络爬虫常见问题（个人总结）

scrapy爬虫及数据分析过程常见问题

python爬虫面试宝典(常见问题)

Python 3.X：爬虫库urllib的几个问题

爬虫入门(二)用webmagic爬豆瓣豆列的尝试(解决403等常见问题)

python3爬虫下载图片之常见问题

python3爬虫爬取网页思路及常见问题（原创）

Node异步爬虫引出的异步流程控制的一些问题

Python爬虫编程常见问题解决方法

关于使用scrapy爬虫框架遇到的一些问题

入坑爬虫之常见问题及解决方案

使用亿牛云爬虫代理常见问题的解决方案

Python爬虫教程-35-编程常见问题解决方法

爬虫没有使用代理会出现的常见问题

关于火车头网络爬虫的几个常见问题

python爬虫初学（一）——基本代码和常见问题

scrapy爬虫学习系列七：scrapy常见问题解决方案

【Python爬虫 • selenium】selenium4新版本自动获取驱动的常见问题

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

ORACLE 跟踪文件详细解释

20190924-LeetCode解数独题目分享

分治法实例-找下标，下标与对应值相等

安全测试学习笔记

JavaScript笔记：原型和原型链

在Linux中检查可用内存的5种方法

BUAA_OO_JML

mongodb创建用户、备份、恢复等

生活20190602

使用MoveIt!配置软件包在RViz中进行机器人运动规划

每日归档

更多

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)