簡潔に分散検索エンジンScrapyの急速な発展のためのPython - クモの準備がコンテンツ爬虫類の文書回覧をクロール

ライトサイクルのスパイダーは、コンテンツファイルの爬虫類をクロール

リクエスト()URLページのダウンロードマネージャに、2つの必須パラメータ、指定されたアドレスを追加してみましょう
  :パラメータ
  のurl =「URL」
  コールバックハンドラ=ページ
  )(必要な降伏要求を使用して

urllibはライブラリのURLのメソッドを自動的にスプライスされるparse.urljoin()メソッドは、2番目のパラメータが相対パスである場合、URLが自動的に最初のパラメータにスプライスされます

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request                             #导入url返回给下载器的方法
from urllib import parse                                    #导入urllib库里的parse模块

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']                  #起始域名
    start_urls = ['http://blog.jobbole.com/all-posts/']     #起始url

    def parse(self, response):
        """
        获取列表页的文章url地址,交给下载器
        """
        #获取当前页文章url
        lb_url = response.xpath('//a[@class="archive-title"]/@href').extract()  #获取文章列表url
        for i in lb_url:
            # print(parse.urljoin(response.url,i))                                             #urllib库里的parse模块的urljoin()方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接
            yield Request(url=parse.urljoin(response.url, i), callback=self.parse_wzhang)      #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数

        #获取下一页列表url,交给下载器,返回给parse函数循环
        x_lb_url = response.xpath('//a[@class="next page-numbers"]/@href').extract()         #获取下一页文章列表url
        if x_lb_url:
            yield Request(url=parse.urljoin(response.url, x_lb_url[0]), callback=self.parse)     #获取到下一页url返回给下载器,回调给parse函数循环进行

    def parse_wzhang(self,response):
        title = response.xpath('//div[@class="entry-header"]/h1/text()').extract()           #获取文章标题
        print(title)

あなたがプログラミングの世界ではまだ混乱している場合は、Pythonのバックルqun学ぶために私たちに参加することができます:784758214を、高齢者が学んでいる方法を見て。経験の交換。基本的なWeb開発Pythonスクリプトから、爬虫類、ジャンゴ、データマイニングや他のプロジェクトへのゼロベースのデータを戦うために仕上げています。どんな小さなPythonのパートナーに与えられました!いくつかの学習方法を共有し、細部に注意を払う必要があり、私たちに参加をクリックしてPythonの学習者の集い
簡潔に分散検索エンジンScrapyの急速な発展のためのPython  - クモの準備がコンテンツ爬虫類の文書回覧をクロール

リクエスト()関数の戻りURL、およびカスタム辞書のコールバックにメタ属性を経由して返すことができます

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request                             #导入url返回给下载器的方法
from urllib import parse                                    #导入urllib库里的parse模块
from adc.items import AdcItem                               #导入items数据接收模块的接收类

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']                  #起始域名
    start_urls = ['http://blog.jobbole.com/all-posts/']     #起始url

    def parse(self, response):
        """
        获取列表页的文章url地址,交给下载器
        """
        #获取当前页文章url
        lb = response.css('div .post.floated-thumb')  #获取文章列表区块,css选择器
        # print(lb)
        for i in lb:
            lb_url = i.css('.archive-title ::attr(href)').extract_first('')     #获取区块里文章url
            # print(lb_url)

            lb_img = i.css('.post-thumb img ::attr(src)').extract_first('')     #获取区块里文章缩略图
            # print(lb_img)

            yield Request(url=parse.urljoin(response.url, lb_url), meta={'lb_img':parse.urljoin(response.url, lb_img)}, callback=self.parse_wzhang)      #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数

        #获取下一页列表url,交给下载器,返回给parse函数循环
        x_lb_url = response.css('.next.page-numbers ::attr(href)').extract_first('')         #获取下一页文章列表url
        if x_lb_url:
            yield Request(url=parse.urljoin(response.url, x_lb_url), callback=self.parse)     #获取到下一页url返回给下载器,回调给parse函数循环进行

    def parse_wzhang(self,response):
        title = response.css('.entry-header h1 ::text').extract()           #获取文章标题
        # print(title)

        tp_img = response.meta.get('lb_img', '')                            #接收meta传过来的值,用get获取防止出错
        # print(tp_img)

        shjjsh = AdcItem()                                                                   #实例化数据接收类
        shjjsh['title'] = title                                                              #将数据传输给items接收模块的指定类
        shjjsh['img'] = tp_img

        yield shjjsh                                #将接收对象返回给pipelines.py处理模块

Scrapyダウンロードはビルトイン用いた映像フレーム

Scrapyは私たちに絵をローカルにダウンロードした後、画像にクロールするURLクローラ専用のcrapy.pipelines.images.ImagesPipelineに建てられた画像ダウンローダを与えます

最初のステップは、爬虫類クロール画像URLアドレスの後、コンテナファイル関数items.pyに充填します

  爬虫類ファイル

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request                             #导入url返回给下载器的方法
from urllib import parse                                    #导入urllib库里的parse模块
from adc.items import AdcItem                               #导入items数据接收模块的接收类

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']                  #起始域名
    start_urls = ['http://blog.jobbole.com/all-posts/']     #起始url

    def parse(self, response):
        """
        获取列表页的文章url地址,交给下载器
        """
        #获取当前页文章url
        lb = response.css('div .post.floated-thumb')  #获取文章列表区块,css选择器
        # print(lb)
        for i in lb:
            lb_url = i.css('.archive-title ::attr(href)').extract_first('')     #获取区块里文章url
            # print(lb_url)

            lb_img = i.css('.post-thumb img ::attr(src)').extract_first('')     #获取区块里文章缩略图
            # print(lb_img)

            yield Request(url=parse.urljoin(response.url, lb_url), meta={'lb_img':parse.urljoin(response.url, lb_img)}, callback=self.parse_wzhang)      #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数

        #获取下一页列表url,交给下载器,返回给parse函数循环
        x_lb_url = response.css('.next.page-numbers ::attr(href)').extract_first('')         #获取下一页文章列表url
        if x_lb_url:
            yield Request(url=parse.urljoin(response.url, x_lb_url), callback=self.parse)     #获取到下一页url返回给下载器,回调给parse函数循环进行

    def parse_wzhang(self,response):
        title = response.css('.entry-header h1 ::text').extract()           #获取文章标题
        # print(title)

        tp_img = response.meta.get('lb_img', '')                            #接收meta传过来的值,用get获取防止出错
        # print(tp_img)

        shjjsh = AdcItem()                                                                   #实例化数据接收类
        shjjsh['title'] = title                                                              #将数据传输给items接收模块的指定类
        shjjsh['img'] = [tp_img]

        yield shjjsh                                #将接收对象返回给pipelines.py处理模块

第二工程は、容器がitems.pyファイル機能を提供され、取得されたデータは、クローラ充填を受け

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

#items.py,文件是专门用于,接收爬虫获取到的数据信息的,就相当于是容器文件

class AdcItem(scrapy.Item):    #设置爬虫获取到的信息容器类
    title = scrapy.Field()     #接收爬虫获取到的title信息
    img = scrapy.Field()       #接收缩略图
    img_tplj = scrapy.Field()  #图片保存路径

第3のステップはpipelines.pyでcrapyビルトイン画像ダウンローダを使用することです

1、内蔵の画像ダウンローダの最初の導入

2、カスタム画像をダウンロードし、crapy特注ImagesPipeline画像ダウンローダクラスを継承

3、ダウンロードした画像を保存するためのパスを取得するためにitem_completed()メソッドのImagesPipelineクラスを使用して

settings.pyファイルに設定されている4、カスタム画像ダウンローダクラスを登録し、保存パス画像を設定します

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.pipelines.images import ImagesPipeline  #导入图片下载器模块

class AdcPipeline(object):                      #定义数据处理类,必须继承object
    def process_item(self, item, spider):       #process_item(item)为数据处理函数,接收一个item,item里就是爬虫最后yield item 来的数据对象
        print('文章标题是:' + item['title'][0])
        print('文章缩略图url是:' + item['img'][0])
        print('文章缩略图保存路径是:' + item['img_tplj'])  #接收图片下载器填充的,图片下载后的路径

        return item

class imgPipeline(ImagesPipeline):                      #自定义一个图片下载内,继承crapy内置的ImagesPipeline图片下载器类
    def item_completed(self, results, item, info):      #使用ImagesPipeline类里的item_completed()方法获取到图片下载后的保存路径
        for ok, value in results:
            img_lj = value['path']     #接收图片保存路径
            # print(ok)
            item['img_tplj'] = img_lj  #将图片保存路径填充到items.py里的字段里
        return item                    #将item给items.py 文件的容器函数

    #注意:自定义图片下载器设置好后,需要在

settings.py設定ファイルでは、カスタム画像ダウンローダクラスを登録し、保存パス画像を設定します

IMAGES_URLS_FIELDは、画像のURLアドレスをダウンロードするように設定し、items.pyは、一般的に受信フィールドに設定
IMAGES_STOREピクチャーパスを保存

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'adc.pipelines.AdcPipeline': 300,  #注册adc.pipelines.AdcPipeline类,后面一个数字参数表示执行等级,
   'adc.pipelines.imgPipeline': 1,    #注册自定义图片下载器,数值越小,越优先执行
}

IMAGES_URLS_FIELD = 'img'                             #设置要下载图片的url字段,就是图片在items.py里的字段里
lujin = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(lujin, 'img')             #设置图片保存路径

簡潔に分散検索エンジンScrapyの急速な発展のためのPython  - クモの準備がコンテンツ爬虫類の文書回覧をクロール

おすすめ

転載: blog.51cto.com/14510224/2435509