1、前言

想必最近大家和我一样都是待在家里吧！待在家里都是为国家做贡献，真好！
反正闲着也是闲着，不如来学习啊!
在某度的帮助下学习了scrapy，写下了自己的第一个图片爬虫作品，好开心呀，嘻嘻。ps：代码可能不堪入目，希望能得到各位大牛的指导。
不废话了，上码。

2、关键代码

这里只讲一下几个关键点，完整代码在文末。
由于爬取的网站有反爬，一开始没绕过反爬，debug几下代码就被封了ip（我只是在学习爬虫，真的无意冒犯贵站呀）不过很快就解封了，站长还是很人性化的，点赞。
经此一役，我就开始思考反反爬，然后就在代码里加了些反反爬措施。

设置随机UA

在middlewares.py中自定义Middleware

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        request.headers.setdefault("User-Agent", UserAgent().random)

settings.py

DOWNLOADER_MIDDLEWARES = {
   'scrapy_test.middlewares.RandomUserAgentMiddleware': 543,
}

设置代理ip

因为还没有找到好用的免费代理ip的API，所以现在在用第三方的代理ip工具凑合着先测试，哪位大哥有免费代理ip的API分享一下吧！

使用ImagesPipeline下载图片

pipelines.py

class MzituImgDownloadPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):
        default_headers = {
            'referer': 'https://www.mzitu.com/',
        }
        yield Request(item['image_urls'], headers=default_headers, meta={"item_category": item['category'],
                                                                         "item_url": item['image_urls']})

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

然后到settings.py中启用MzituImgDownloadPipeline

ITEM_PIPELINES = {
   'scrapy_test.pipelines.MzituImgDownloadPipeline': 300,
}

顺便设置下图片存储路径

#下载图片存储位置
IMAGES_STORE = 'F:\\mzitu'

实现快速分类存储图片

通过阅读源码，发现重写file_path方法就可以快速实现图片的分类存储，这样爬取不同主题下的图片就会存放在不同文件夹了。
关于如何实现分类存储，一开始在网上找了一下，感觉都emmm，还用自己创建目录？像我这样写不就行了吗？
简洁、美观、大气啊哈哈哈！
pipelines.py

def file_path(self, request, response=None, info=None):
        category = request.meta['item_category']
        image_guid = request.meta['item_url'].split('/')[-1]
        return '%s/%s' % (category, image_guid)