1、前言
想必最近大家和我一样都是待在家里吧!待在家里都是为国家做贡献,真好!
反正闲着也是闲着,不如来学习啊!
在某度的帮助下学习了scrapy,写下了自己的第一个图片爬虫作品,好开心呀,嘻嘻。ps:代码可能不堪入目,希望能得到各位大牛的指导。
不废话了,上码。
2、关键代码
这里只讲一下几个关键点,完整代码在文末。
由于爬取的网站有反爬,一开始没绕过反爬,debug几下代码就被封了ip(我只是在学习爬虫,真的无意冒犯贵站呀)不过很快就解封了,站长还是很人性化的,点赞。
经此一役,我就开始思考反反爬,然后就在代码里加了些反反爬措施。
设置随机UA
在middlewares.py中自定义Middleware
class RandomUserAgentMiddleware(object):
def process_request(self, request, spider):
request.headers.setdefault("User-Agent", UserAgent().random)
settings.py
DOWNLOADER_MIDDLEWARES = {
'scrapy_test.middlewares.RandomUserAgentMiddleware': 543,
}
设置代理ip
因为还没有找到好用的免费代理ip的API,所以现在在用第三方的代理ip工具凑合着先测试,哪位大哥有免费代理ip的API分享一下吧!
使用ImagesPipeline下载图片
pipelines.py
class MzituImgDownloadPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
default_headers = {
'referer': 'https://www.mzitu.com/',
}
yield Request(item['image_urls'], headers=default_headers, meta={"item_category": item['category'],
"item_url": item['image_urls']})
def item_completed(self, results, item, info):
image_paths = [x['path'] for ok, x in results if ok]
if not image_paths:
raise DropItem("Item contains no images")
return item
然后到settings.py中启用MzituImgDownloadPipeline
ITEM_PIPELINES = {
'scrapy_test.pipelines.MzituImgDownloadPipeline': 300,
}
顺便设置下图片存储路径
#下载图片存储位置
IMAGES_STORE = 'F:\\mzitu'
实现快速分类存储图片
通过阅读源码,发现重写file_path方法就可以快速实现图片的分类存储,这样爬取不同主题下的图片就会存放在不同文件夹了。
关于如何实现分类存储,一开始在网上找了一下,感觉都emmm,还用自己创建目录?像我这样写不就行了吗?
简洁、美观、大气啊哈哈哈!
pipelines.py
def file_path(self, request, response=None, info=None):
category = request.meta['item_category']
image_guid = request.meta['item_url'].split('/')[-1]
return '%s/%s' % (category, image_guid)
3、效果图
爬取的图片都是正经图哈,只是习惯了在网上发图先打码,不要看见有码的图片就想入非非哦⊙∀⊙!
4、结尾
此项目只做学习交流使用,欢迎大家留言讨论!
完整的代码都放在GitHub了,有兴趣的可以看看,顺便star一下哦,感谢⊙∀⊙!
扫描二维码关注公众号,回复:
9168118 查看本文章
欢迎大家PR