小爬虫爬取小猫咪图片并存入本地文件夹

小爬虫爬取小猫咪图片并存入本地文件夹

本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没啥意思。所以在家无聊,爬取了一些小猫咪图片到本地文件里,正好给我使用图像处理。另外,也很可爱呀!好啦,开始我们的实操吧!

1、需要的一些库
这里需要5个库,当然如果想要简单一些,也可以去掉一些。
gevent包:这是使用多协程必不可少的包,如果你使用的不是多协程,可以不用这个
time包:这是可以用来计时,也用来设置爬取间隔,不然对服务器不友好就不好了。。
request包:这是对网址链接进行处理和响应的,必不可少的。
BeautifuiSoup包:这是对响应的网址进行解析的。
os包:创建文件夹的。

from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os

2、在我们导入需要的库之后,要对网页网址进行分析,看看响应的图片藏在哪里,从而进行爬取。我这里采用的网址是
小猫咪网址
当你打开它时,会发现很多很多可爱的小猫咪,让人都不舍得离开了(哈哈,题外话),好了我们点开网页检查,发现小猫咪的网址链接藏在 img src 中。
我这里采用的是用最小父系中去寻找,而我找到的最小父系是

'div',class_='il_img'

话不多说,这是我爬取的所有代码如下所示,基本上都很简单,一目了然。

def pachong():
    while not work.empty():
        url = work.get_nowait()
        res = requests.get(url,headers = headers)
        jiexi = BeautifulSoup(res.text,'html.parser')
        fuxi = jiexi.find_all('div',class_='il_img')
        for i in fuxi:
            photo = i.find_all('a')[0].find('img')['src']
            transform = str(photo)
            add = 'https:' + transform
            image.append(add)

3、接下来是存储图片到本地文件中,先使用os模块创建文件夹,创建好之后因为是图片,以wb模式写入文件夹中。

dir_name = 'catimage'
            #在当前目录下创建文件夹
            if not os.path.exists(dir_name):
                os.mkdir(dir_name)

            i = 0
            for img in image:
                #给它一点点时间,不然可能会把服务器搞崩掉。。
                time.sleep(0.1)
                picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!
                response = requests.get(img,headers = headers)
                
                with open(dir_name+'/'+picture_name,'wb') as f:
                    f.write(response.content)
                 

4、除此之外,我还加了五只爬虫来进行异步爬取,这样会快一点。
在这里插入图片描述
5、好了,说了这么多,轮到看看我们的最终得到了什么,我去本地文件夹里找到我创建的catimage文件夹。打开,入眼可见(我截图为部分图片),太可爱了吧!
在这里插入图片描述
6、整体源码提供如下啦!

#需要导入的库
#我采用多协程方式
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os


#用time.time()方法来记录爬取的时间
starttime = time.time()
work = Queue()
start_url = 'https://www.ivsky.com/tupian/xiaomao_t3023/index_{page}.html'
#头文件还是要加的,不然会被服务器拦截掉,导致爬取不到
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

#对服务器不能太狠,所以只爬取4页就好了。。。
for x in range(1,5):
    real_url = start_url.format(page = x)
    work.put_nowait(real_url)


image = []

#主要爬虫的操作都在这里
def pachong():
    while not work.empty():
        url = work.get_nowait()
        res = requests.get(url,headers = headers)
        jiexi = BeautifulSoup(res.text,'html.parser')
        fuxi = jiexi.find_all('div',class_='il_img')
        for i in fuxi:
            photo = i.find_all('a')[0].find('img')['src']
            transform = str(photo)
            add = 'https:' + transform
            image.append(add)
            
            dir_name = 'catimage'
            #在当前目录下创建文件夹
            if not os.path.exists(dir_name):
                os.mkdir(dir_name)

            i = 0
            for img in image:
                #给它一点点时间,不然可能会把服务器搞崩掉。。
                time.sleep(0.1)
                picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!
                response = requests.get(img,headers = headers)
                
                with open(dir_name+'/'+picture_name,'wb') as f:
                    f.write(response.content)
                i = i+1
                print('正在爬取第'+str(i)+'张图片')
            
                
     
           
            
task_list = []
for z in range(5):
    task = gevent.spawn(pachong)
    task_list.append(task)
gevent.joinall(task_list)
endtime = time.time()
print('爬取时长:',endtime-starttime)

好啦。不了解的可以评论给我哦!

发布了2 篇原创文章 · 获赞 3 · 访问量 89

猜你喜欢

转载自blog.csdn.net/Jshauishaui/article/details/105576502