小爬虫爬取小猫咪图片并存入本地文件夹

小爬虫爬取小猫咪图片并存入本地文件夹

本人是安徽工业大学电气与信息工程学院研一学生，最近还不能开学真的是很糟心哦，由于自己比较笨吧，起步较晚还要忙着学习机器学习还有计算机视觉，但是总学这个感觉很闷也没啥意思。所以在家无聊，爬取了一些小猫咪图片到本地文件里，正好给我使用图像处理。另外，也很可爱呀！好啦，开始我们的实操吧！

1、需要的一些库
这里需要5个库，当然如果想要简单一些，也可以去掉一些。
gevent包：这是使用多协程必不可少的包，如果你使用的不是多协程，可以不用这个
time包：这是可以用来计时，也用来设置爬取间隔，不然对服务器不友好就不好了。。
request包：这是对网址链接进行处理和响应的，必不可少的。
BeautifuiSoup包：这是对响应的网址进行解析的。
os包：创建文件夹的。

from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os

2、在我们导入需要的库之后，要对网页网址进行分析，看看响应的图片藏在哪里，从而进行爬取。我这里采用的网址是
小猫咪网址
当你打开它时，会发现很多很多可爱的小猫咪，让人都不舍得离开了（哈哈，题外话），好了我们点开网页检查，发现小猫咪的网址链接藏在 img src 中。
我这里采用的是用最小父系中去寻找，而我找到的最小父系是

'div',class_='il_img'

话不多说，这是我爬取的所有代码如下所示，基本上都很简单，一目了然。

def pachong():
    while not work.empty():
        url = work.get_nowait()
        res = requests.get(url,headers = headers)
        jiexi = BeautifulSoup(res.text,'html.parser')
        fuxi = jiexi.find_all('div',class_='il_img')
        for i in fuxi:
            photo = i.find_all('a')[0].find('img')['src']
            transform = str(photo)
            add = 'https:' + transform
            image.append(add)

3、接下来是存储图片到本地文件中，先使用os模块创建文件夹，创建好之后因为是图片，以wb模式写入文件夹中。

dir_name = 'catimage'
            #在当前目录下创建文件夹
            if not os.path.exists(dir_name):
                os.mkdir(dir_name)

            i = 0
            for img in image:
                #给它一点点时间，不然可能会把服务器搞崩掉。。
                time.sleep(0.1)
                picture_name = img.split('/')[-1] #提取图片url后缀，一定要用！
                response = requests.get(img,headers = headers)
                
                with open(dir_name+'/'+picture_name,'wb') as f:
                    f.write(response.content)

4、除此之外，我还加了五只爬虫来进行异步爬取，这样会快一点。
在这里插入图片描述
5、好了，说了这么多，轮到看看我们的最终得到了什么，我去本地文件夹里找到我创建的catimage文件夹。打开，入眼可见（我截图为部分图片），太可爱了吧！

6、整体源码提供如下啦！

#需要导入的库
#我采用多协程方式
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os


#用time.time()方法来记录爬取的时间
starttime = time.time()
work = Queue()
start_url = 'https://www.ivsky.com/tupian/xiaomao_t3023/index_{page}.html'
#头文件还是要加的，不然会被服务器拦截掉，导致爬取不到
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

#对服务器不能太狠，所以只爬取4页就好了。。。
for x in range(1,5):
    real_url = start_url.format(page = x)
    work.put_nowait(real_url)


image = []

#主要爬虫的操作都在这里
def pachong():
    while not work.empty():
        url = work.get_nowait()
        res = requests.get(url,headers = headers)
        jiexi = BeautifulSoup(res.text,'html.parser')
        fuxi = jiexi.find_all('div',class_='il_img')
        for i in fuxi:
            photo = i.find_all('a')[0].find('img')['src']
            transform = str(photo)
            add = 'https:' + transform
            image.append(add)
            
            dir_name = 'catimage'
            #在当前目录下创建文件夹
            if not os.path.exists(dir_name):
                os.mkdir(dir_name)

            i = 0
            for img in image:
                #给它一点点时间，不然可能会把服务器搞崩掉。。
                time.sleep(0.1)
                picture_name = img.split('/')[-1] #提取图片url后缀，一定要用！
                response = requests.get(img,headers = headers)
                
                with open(dir_name+'/'+picture_name,'wb') as f:
                    f.write(response.content)
                i = i+1
                print('正在爬取第'+str(i)+'张图片')
            
                
     
           
            
task_list = []
for z in range(5):
    task = gevent.spawn(pachong)
    task_list.append(task)
gevent.joinall(task_list)
endtime = time.time()
print('爬取时长：',endtime-starttime)

好啦。不了解的可以评论给我哦！

Jshauishaui

发布了2 篇原创文章 · 获赞 3 · 访问量 89

私信关注

小爬虫爬取小猫咪图片并存入本地文件夹

猜你喜欢