効率を向上させるクロールScrapy

並行性を向上:

デフォルトのスレッド数は、適宜設定ファイル100に設定seeting councurrent_requestsを変更、追加することができる32 scrapy開口であります

ログレベルの削減:

操作scrapyの実行では、CPU使用率を低減させるために、ログレベルの設定を設定することができたり、エラーログの出力レベルはinfoです、出力ログが多数存在します

クッキーを無効にします:

実際にクッキーを使用する必要がない場合は、効率を高めるクロール、クッキーを無効にすることができます。cookie_enabled =偽

再び禁止:

HTTPリクエストは、もう一度試して禁止することができ、再要求は、クロール速度が遅くなりますことができませんでした。retry_enabled =偽

ダウンロード時間を削減:

非常に遅いクロールへのリンクは、ダウンロード時間を減らし、非常に遅くなり、そのようなリンクは、クロールの効率を高めるため、放棄したことになります。download_timeout = 10タイムアウト10S

おすすめ

転載: www.cnblogs.com/wen-kang/p/10972806.html