scrapyすべての爬虫類を、一時停止し、録音ポーズ状態何のURLをクロールするとき、再起動がクロールされていない場合にサスペンド状態からURL上でクロールを開始することができ
記録状態を一時停止し、再起動するには
この方法の一つ:
1 、(もちろん、あなたもpycharmで直接Pythonのファイルでスクリプトを使用して実行することができます)でscrapyプロジェクトに最初のCD 2 、フォルダ内に記録管理情報scrapyプロジェクトを作成 3 コマンドを実行し、: scrapyクロール爬虫類名 -s JOBDIR = 記録保持情報のパスが scrapyクロールcnblogs:として JOBDIR =ザント/ 001 -s コマンドは、指定された爬虫類を開始し、指定したディレクトリに状態を記録実行 開始されている爬虫類、我々はキーボードのCtrlキーを押すことができます + 爬虫類を停止した後、C、私たちを停止しますレコードフォルダを見て、それがファイル内のフォルダをrequests.queueつ以上のファイルになりますURL P0のログファイルで、このファイルは、それが未完成のURLがあることを意味し、すべてが完了したときに、それが自動的にURLが削除されますが存在しますファイル 我々は、コマンド実行時に再:scrapyクロールcnblogsを -s JOBDIR =ザント/ 001クローラは、それがP0ファイルに基づいて中断したところ継続クロールを開始する時期。
方法2:
settings.pyファイルに次のコードを追加します。
JOBDIR = ' sharejs.com '
コマンドscrapyクロール爬虫類名を使用し、それが自動的にsharejs.comディレクトリを生成し、このフォルダのリストに動作します