java算法-网络爬虫抓取网页并保存

其他 2018-12-28 13:22:03 阅读次数: 0

从一个URL中读取网页,如果是同一个网站的就保存,URL里面包含URL列表,继续抓取,抓完全部
使用多线程

A线程读取URL内容
B线程存文件
C线程解析URL 发现新URL

从A线程读取完的内容可以放到一个队列里面,B线程来读取,C线程解析URL

问题,如果这个队列很大,内存不够用,怎么解决

(最开始想的办法就是,队列里面尽量存小的内容,比如只存一个文件名)

面试官说不管怎么小,内存还是可能会撑爆

我没想出来,面试官给的答案是控制速度,顿时豁然开朗

有时候就是跳不出自己的思想,很固化,欢迎大家评论,给出新的思路

猜你喜欢

转载自blog.csdn.net/hyz792901324/article/details/52513867

java算法-网络爬虫抓取网页并保存

Java抓取网页爬虫

网络爬虫(网络蜘蛛)之网页抓取

python网络爬虫（1）静态网页抓取

Python3爬虫抓取网页的html 保存

java jsoup 网络爬虫学习例子（四）抓取网页连接插入mysql数据库

Java网络爬虫-2 抓取指定URL网页数据以及解析

爬虫抓取网页图片

Node.js抓取网页信息（cheerio网络爬虫）

Node.js抓取网页信息并展示（cheerio网络爬虫）

Pyhon网络爬虫学习笔记—抓取本地网页（一）

快速入门网络爬虫系列 Chapter03 | 抓取网页

java爬虫抓取网络上的图片

java爬虫抓取js/ajax动态生成的网页

java爬虫入门——从一个网页抓取源码

网络爬虫之爬取网页图片并保存

爬虫-简单抓取网页图片

爬虫学习----静态网页抓取

使用爬虫抓取网页内容

网络爬虫的抓取策略

android 开发--抓取网页解析网页内容的若干方法(网络爬虫)（正则表达式）

java网页抓取

java 抓取网页图片

Java实现网络爬虫：HttpClient抓取https协议页面

Python抓取网页并保存为PDF

【转载】Python3网络爬虫(一)：利用urllib进行简单的网页抓取

python网络爬虫（一，抓取网页的含义和URL基本构成）

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

Android Jsoup 网络爬虫抓取网页数据---新手学习详细教程！

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)