爬虫類学習 - 2日目

目標:有名な引用の標的部位にscrapyをクロール

コード:

- * -コーディング:UTF-8 - * - 
輸入scrapy

quotetutorial.itemsのインポートQuoteItem


クラスQuotesSpider(scrapy.Spider):
    名前 = ' 引用符' 
    allowed_domains = [ ' http://quotes.toscrape.com/ ' ]
    start_urls = [ ' http://quotes.toscrape.com/ ' ]

    デフ解析(自己、応答):
        引用符 = response.css(' .quote ' のための引用引用符:
            アイテム = QuoteItem()
            テキスト = quote.css(' の.text ::テキスト' ).extract_first()
            項目[ テキスト ] = テキスト
             収率アイテム
        次回 = response.css(' .pager .next A :: ATTR(HREF)' ).extract_first()
        URL = response.urljoin(次の)
         収率 scrapy.Request(URL = URL、コールバック= self.parse)

機能は本当にだけ入力して解析する必要が内側

 

学んだscrapyコマンド:

scrapyのstartprojectののPROJECT_NAME - クローラープロジェクトを作成します

genspider spider_name scrapy  http://quotes.toscrape.com/ -ファイル爬虫類を作成します。

scrapyはhttp://quotes.toscrape.com/シェル - シェルのテストトーンに 

scrapyクロールspider_name ---一般JSONさらにTXT -o出力ファイルをクロールすることはできません開始

 

少しを取得する他の二つの質問が3日目を解決するために、左、左、それを収穫することがscrapy:

1)私のコードとビデオのコードが、私はURLは最初のページのみのコンテンツをクロールするために、戻っていなかった、この2日目は、他の人に係合する第一、今日それを解決するために残しました。

2)私は、Pythonについて調べるなかった歩留まりだけで意味の復帰すべきではない、使い方の。

 

おすすめ

転載: www.cnblogs.com/tlbjiayou/p/12609401.html