使用scrapy抓取百度的图片

1.scrapy的安装

pip install Scrapy

2.建立scrapy项目

scrapy startproject L10

(这里有一个问题,出现了两个L10目录)

修改根目录下的items.py文件

import scrapy
from scrapy import Field,Item

#Item 是用来保存爬取到的数据的容器
class BaiduItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # image_type = Field()   #图片
    image_url = Field()
    pass

在spiders文件夹里创建sexyGirl.py文件并编写该文件

加入以下文件

# -*- coding:utf-8 -*-
from scrapy.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from baidu.items import BaiduItem
import json

class sexyGirl(CrawlSpider):
    name = 'sexyGirl'
    # 设置headers伪装成浏览器
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
    }

    # 指定url的情况下我们重写start_requests方法
    def start_requests(self):
        start_urls = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord+=性感美女&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&word=性感美女%E9%99%86%E6%AF%85&z=&ic=0&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&step_word=%E9%99%86%E6%AF%85&pn=0&rn=30&gsm=1e&1528441524820='
        yield Request(start_urls,headers=self.headers)

    def parse(self, response):
        #从Json文件内容中提取所有img的内容
        imgs = json.loads(response.body)['data']
        for eachImage in imgs:
            item = BaiduItem()  #items中的类
            try:
                item['image_url'] = [eachImage['middleURL']]
                yield item
            except Exception as e:
                print(e)

编写settings.py文件

#True 改 False
ROBOTSTXT_OBEY = False

运行网络爬虫

scrapycrawl sexyGirl -o result.csv

报错

No module named 'win32api'

运行 pip install pypiwin32,后安装,再次运行

项目中得到一个result.csv文件，一个scrapy.log文件，以及一个full文件夹，里边存放着图片

使用scrapy抓取百度的图片

猜你喜欢