公式ドキュメント:https://docs.scrapy.org/en/latest/topics/commands.html
グローバルコマンド:
プロジェクトのみのコマンド:
genspider->注:-tは作成テンプレートを指定し、デフォルトは基本です
-
構文:
scrapy genspider [-t template] <name> <domain>
-
プロジェクトが必要です: いいえ
使用例:
$ scrapy genspider -l
Available templates:
basic
crawl
csvfeed
xmlfeed
$ scrapy genspider example example.com
Created spider 'example' using template 'basic'
$ scrapy genspider -t crawl scrapyorg scrapy.org
Created spider 'scrapyorg' using template 'crawl'
runpider->利点は、プロジェクトパスをサポートする必要がないことですが、spider_file.pyは相対パスをサポートしていません
-
構文:
scrapy runspider <spider_file.py>
-
プロジェクトが必要です: いいえ
プロジェクトを作成せずに、Pythonファイルに自己完結型のスパイダーを実行します。
使用例:
$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]
parse->主要な推奨事項、デバッグが簡単、実行するコールバック関数を指定できます。例:scrapy parse https://www.baidu.com -c parse_detail --spider = tencent
-
構文:
scrapy parse <url> [options]
-
プロジェクトが必要です: はい
指定されたURLをフェッチし、--callback
オプションで渡されたメソッドを使用して、または指定されparse
ていない場合は、 それを処理するスパイダーで解析します 。
サポートされているオプション:
-
--spider=SPIDER
:スパイダーの自動検出をバイパスし、特定のスパイダーの使用を強制します -
--a NAME=VALUE
:スパイダー引数を設定します(繰り返される場合があります) -
--callback
または-c
:応答を解析するためのコールバックとして使用するスパイダーメソッド -
--meta
または-m
:コールバックリクエストに渡される追加のリクエストメタ。これは有効なjson文字列である必要があります。例:–meta = '{“ foo”:“ bar”}' -
--cbkwargs
:コールバックに渡される追加のキーワード引数。これは有効なjson文字列である必要があります。例:–cbkwargs = '{“ foo”:“ bar”}' -
--pipelines
:パイプラインを介してアイテムを処理する -
--rules
または-r
:CrawlSpider
ルールを使用して、応答の解析に使用するコールバック(つまり、スパイダーメソッド)を検出します -
--noitems
:削ったアイテムを表示しない -
--nolinks
:抽出されたリンクを表示しない -
--nocolour
:出力を色付けするためにpygmentsを使用しないでください -
--depth
または-d
:要求を再帰的に追跡する必要がある深度レベル(デフォルト:1) -
--verbose
または-v
:各深度レベルの情報を表示します
使用例:
$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]
>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items ------------------------------------------------------------
[{'name': 'Example item',
'category': 'Furniture',
'length': '12 cm'}]
# Requests -----------------------------------------------------------------
[]