局データcrawlspiderのクロールに基づいて、
1.spiderサブクラス
2.プロセス
ファイルベースのCrawlSpider爬虫類scrapy genspider -tクロールspidernameを作成します。
インポートscrapy からscrapy.spider.crawlインポートCrawlSpider、ルール・ フロムscrapy.linkextractorsインポートLinkExtractorの クラスmyspider(CrawlSpider): 名 = ' pra_crawlspider ' start_urls = [ ' http://pic.netbian.com/] ルール= [ #实例化一个規則(规则解析器)的对象 規則(LinkExtractor(restrict_xpaths = " // div要素、従う)、コールバック= "parse_item"[クラス= "ページ" @] =真) ] デフparse_item(自己、応答): IMGS = response.xpath(" //のdiv [@のクラス= "SLIST"] // IMG) 以下のための IMG で:IMGS プリント(img.xpaht(' ./@src ' ))extract_first()。 プリント(img.xpath(' ./@alt ' extract_first))()。
スパイダを実行した後、最初のページへSTART_URL所与のアクセス、応答オブジェクトは解析方法の解像度に戻され、RESからURL解析方法抽出ルールで指定された規則に従って、要求を送信し続け、応答オブジェクトは、指定されたコールバックRESに渡されますに対処するための機能。