かすれた一般的なコマンドの詳細な説明

 公式ドキュメント:https//docs.scrapy.org/en/latest/topics/commands.html

 

グローバルコマンド:

プロジェクトのみのコマンド:

 

genspider->注:-tは作成テンプレートを指定し、デフォルトは基本です

  • 構文: scrapy genspider [-t template] <name> <domain>

  • プロジェクトが必要です: いいえ

使用例:

$ scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

$ scrapy genspider example example.com
Created spider 'example' using template 'basic'

$ scrapy genspider -t crawl scrapyorg scrapy.org
Created spider 'scrapyorg' using template 'crawl'

 

runpider->利点は、プロジェクトパスをサポートする必要がないことですが、spider_file.pyは相対パスをサポートしていません

  • 構文: scrapy runspider <spider_file.py>

  • プロジェクトが必要です: いいえ

プロジェクトを作成せずに、Pythonファイルに自己完結型のスパイダーを実行します。

使用例:

$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]

 

parse->主要な推奨事項、デバッグが簡単、実行するコールバック関数を指定できます。例:scrapy parse https://www.baidu.com -c parse_detail --spider = tencent

  • 構文: scrapy parse <url> [options]

  • プロジェクトが必要です: はい

指定されたURLをフェッチし、--callback オプションで渡されたメソッドを使用して、または指定されparse ていない場合は、 それを処理するスパイダーで解析します 

サポートされているオプション:

  • --spider=SPIDER:スパイダーの自動検出をバイパスし、特定のスパイダーの使用を強制します

  • --a NAME=VALUE:スパイダー引数を設定します(繰り返される場合があります)

  • --callback または -c:応答を解析するためのコールバックとして使用するスパイダーメソッド

  • --meta または -m:コールバックリクエストに渡される追加のリクエストメタ。これは有効なjson文字列である必要があります。例:–meta = '{“ foo”:“ bar”}'

  • --cbkwargs:コールバックに渡される追加のキーワード引数。これは有効なjson文字列である必要があります。例:–cbkwargs = '{“ foo”:“ bar”}'

  • --pipelines:パイプラインを介してアイテムを処理する

  • --rules または -r: CrawlSpider ルールを使用して、応答の解析に使用するコールバック(つまり、スパイダーメソッド)を検出します

  • --noitems:削ったアイテムを表示しない

  • --nolinks:抽出されたリンクを表示しない

  • --nocolour:出力を色付けするためにpygmentsを使用しないでください

  • --depth または -d:要求を再帰的に追跡する必要がある深度レベル(デフォルト:1)

  • --verbose または -v:各深度レベルの情報を表示します

使用例:

$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': 'Example item',
 'category': 'Furniture',
 'length': '12 cm'}]

# Requests  -----------------------------------------------------------------
[]

おすすめ

転載: blog.csdn.net/zhu6201976/article/details/106604970