08.暴走馬crawlspider

局データcrawlspiderのクロールに基づいて、

  1.spiderサブクラス

  2.プロセス

    ファイルベースのCrawlSpider爬虫類scrapy genspider -tクロールspidernameを作成します。

インポートscrapy 
 からscrapy.spider.crawlインポートCrawlSpider、ルール・
フロムscrapy.linkextractorsインポートLinkExtractorの

クラスmyspider(CrawlSpider): = ' pra_crawlspider ' 
    start_urls = [ ' http://pic.netbian.com/] 
    ルール= [ 
         #实例化一个規則(规则解析器)的对象
         規則(LinkExtractor(restrict_xpaths = " // div要素、従う)、コールバック= "parse_item"[クラス= "ページ" @] =真)              
    ] 
    
    デフparse_item(自己、応答):
        IMGS = response.xpath(" //のdiv [@のクラス= "SLIST"] // IMG)
        以下のための   IMG :IMGS 
            プリント(img.xpaht(' ./@src ' ))extract_first()。
            プリント(img.xpath(' ./@alt ' extract_first))()。

  スパイダを実行した後、最初のページへSTART_URL所与のアクセス、応答オブジェクトは解析方法の解像度に戻され、RESからURL解析方法抽出ルールで指定された規則に従って、要求を送信し続け、応答オブジェクトは、指定されたコールバックRESに渡されますに対処するための機能。

おすすめ

転載: www.cnblogs.com/zhangjian0092/p/11704687.html