目標:有名な引用の標的部位にscrapyをクロール
コード:
#- * -コーディング:UTF-8 - * - 輸入scrapy quotetutorial.itemsのインポートQuoteItem クラスQuotesSpider(scrapy.Spider): 名前 = ' 引用符' allowed_domains = [ ' http://quotes.toscrape.com/ ' ] start_urls = [ ' http://quotes.toscrape.com/ ' ] デフ解析(自己、応答): 引用符 = response.css(' .quote ' ) のための引用で引用符: アイテム = QuoteItem() テキスト = quote.css(' の.text ::テキスト' ).extract_first() 項目[ 「テキスト」 ] = テキスト 収率アイテム 次回 = response.css(' .pager .next A :: ATTR(HREF)' ).extract_first() URL = response.urljoin(次の) 収率 scrapy.Request(URL = URL、コールバック= self.parse)
機能は本当にだけ入力して解析する必要が内側
学んだscrapyコマンド:
scrapyのstartprojectののPROJECT_NAME - クローラープロジェクトを作成します
genspider spider_name scrapy http://quotes.toscrape.com/ -ファイル爬虫類を作成します。
scrapyはhttp://quotes.toscrape.com/シェル - シェルのテストトーンに
scrapyクロールspider_name ---一般JSONさらにTXT -o出力ファイルをクロールすることはできません開始
少しを取得する他の二つの質問が3日目を解決するために、左、左、それを収穫することがscrapy:
1)私のコードとビデオのコードが、私はURLは最初のページのみのコンテンツをクロールするために、戻っていなかった、この2日目は、他の人に係合する第一、今日それを解決するために残しました。
2)私は、Pythonについて調べるなかった歩留まりだけで意味の復帰すべきではない、使い方の。