[Scrapyログ管理フレームワークとクロール効率] --2019-08-09 10時11分34秒

オリジナル:http://106.13.73.98/__/140/

ログレベル

  • ERROR:一般的なエラー
  • WARNING:警告
  • INFO:一般情報
  • DEBUG:デバッグ情報

ログ管理

settings.pyログインするには、次の2つの構成プロファイルを作成します:

# 指定日志等级
LOG_LEVEL = 'ERROR'

# 指定日志存储文件
LOG_FILE = 'log.txt'
# 如果你指定了日志存储文件,则终端不再打印日志信息

クロール効率


1.增加并发
Scrapyは、同時実行スレッドのためにデフォルトで有効になって32 Geは、適切に増加させることができます。
settings.pyによって設定ファイルCONCURRENT_REQUESTS同時の数を指定します。


2.降低日志级别
あなたがScrapyを実行すると、ログ情報の出力がたくさんあるでしょう、私たちは、ログレベルを設定することができINFOまたはERRORを CPUの使用量を削減します。
settings.pyによって設定ファイルLOG_LEVELログレベルを指定しました。


3.禁用cookie
それは本当にクッキーを必要とされていない場合は、CPUの使用率を向上させるクロール効率を向上させるために、それは、切り出すことができ、それはデフォルトで無効になっています。
settings.pyによって設定ファイルCOOKIES_ENABLEDクッキーを有効または無効にします。


4.禁用重试
失敗したHTTPリクエスト(リトライ)の再スピードをクロール遅くなり、再試行を無効にすることができます。
settings.pyによって設定ファイルRETRY_ENABLED再試行を有効または無効にします。


5.减少下载超时时间
ダウンロードのタイムアウトを減らすために非常に遅いクロールへのリンクがスタック高速リンクをすることができます場合は、クロールの効率を高めるために、放棄されました。
settings.pyによって設定ファイルDOWNLOAD_TIMEOUT(秒)のタイムアウト時間を指定します。

追加:爬虫類を終了する条件を指定します。

  1. CLOSESPIDER_TIMEOUT 爬虫類の終了後の時間(秒)を指定します。
  2. CLOSESPIDER_ITEMCOUNT 爬虫類項目の指定された数の端部を把持した後
  3. CLOSESPIDER_PAGECOUNT 爬虫類の指定された数の最後に応答を受信すると
  4. CLOSESPIDER_ERRORCOUNT エラーの指定された数は、爬虫類の最後に発生した後

オリジナル:http://106.13.73.98/__/140/

おすすめ

転載: www.cnblogs.com/gqy02/p/11325413.html