java算法-网络爬虫抓取网页并保存

从一个URL中读取网页,如果是同一个网站的就保存,URL里面包含URL列表,继续抓取,抓完全部
使用多线程

A线程读取URL内容
B线程存文件
C线程解析URL 发现新URL

从A线程读取完的内容可以放到一个队列里面,B线程来读取,C线程解析URL 

问题,如果这个队列很大,内存不够用,怎么解决

(最开始想的办法就是,队列里面尽量存小的内容,比如只存一个文件名)

面试官说 不管怎么小,内存还是可能会 撑爆


我没想出来,面试官给的答案是 控制速度,顿时豁然开朗

有时候就是跳不出自己的思想,很固化,欢迎大家评论,给出新的思路


猜你喜欢

转载自blog.csdn.net/hyz792901324/article/details/52513867