Scrapyの爬虫類の一時停止と開始

scrapyすべての爬虫類を、一時停止し、録音ポーズ状態何のURLをクロールするとき、再起動がクロールされていない場合にサスペンド状態からURL上でクロールを開始することができ

記録状態を一時停止し、再起動するには

この方法の一つ:

1 、(もちろん、あなたもpycharmで直接Pythonのファイルでスクリプトを使用して実行することができます)でscrapyプロジェクトに最初のCD

 2 、フォルダ内に記録管理情報scrapyプロジェクトを作成

 3 コマンドを実行し、:

  scrapyクロール爬虫類名 -s JOBDIR = 記録保持情報のパスが

  scrapyクロールcnblogs:として JOBDIR =ザント/ 001 -s 

  コマンドは、指定された爬虫類を開始し、指定したディレクトリに状態を記録実行

開始されている爬虫類、我々はキーボードのCtrlキーを押すことができます + 爬虫類を停止した後、C、私たちを停止しますレコードフォルダを見て、それがファイル内のフォルダをrequests.queueつ以上のファイルになりますURL P0のログファイルで、このファイルは、それが未完成のURLがあることを意味し、すべてが完了したときに、それが自動的にURLが削除されますが存在しますファイル

我々は、コマンド実行時に再:scrapyクロールcnblogsを -s JOBDIR =ザント/ 001クローラは、それがP0ファイルに基づいて中断したところ継続クロールを開始する時期。

 

方法2:

settings.pyファイルに次のコードを追加します。 

JOBDIR = ' sharejs.com '

コマンドscrapyクロール爬虫類名を使用し、それが自動的にsharejs.comディレクトリを生成し、このフォルダのリストに動作します 

 

おすすめ

転載: www.cnblogs.com/songzhixue/p/11491146.html