オリジナル:http://106.13.73.98/__/140/
ログレベル
- ERROR:一般的なエラー
- WARNING:警告
- INFO:一般情報
- DEBUG:デバッグ情報
ログ管理
でsettings.pyログインするには、次の2つの構成プロファイルを作成します:
# 指定日志等级 LOG_LEVEL = 'ERROR' # 指定日志存储文件 LOG_FILE = 'log.txt' # 如果你指定了日志存储文件,则终端不再打印日志信息
クロール効率
1.增加并发
Scrapyは、同時実行スレッドのためにデフォルトで有効になって32 Geは、適切に増加させることができます。
でsettings.pyによって設定ファイルCONCURRENT_REQUESTS同時の数を指定します。
2.降低日志级别
あなたがScrapyを実行すると、ログ情報の出力がたくさんあるでしょう、私たちは、ログレベルを設定することができINFOまたはERRORを CPUの使用量を削減します。
でsettings.pyによって設定ファイルLOG_LEVELログレベルを指定しました。
3.禁用cookie
それは本当にクッキーを必要とされていない場合は、CPUの使用率を向上させるクロール効率を向上させるために、それは、切り出すことができ、それはデフォルトで無効になっています。
でsettings.pyによって設定ファイルCOOKIES_ENABLEDクッキーを有効または無効にします。
4.禁用重试
失敗したHTTPリクエスト(リトライ)の再スピードをクロール遅くなり、再試行を無効にすることができます。
でsettings.pyによって設定ファイルRETRY_ENABLED再試行を有効または無効にします。
5.减少下载超时时间
ダウンロードのタイムアウトを減らすために非常に遅いクロールへのリンクがスタック高速リンクをすることができます場合は、クロールの効率を高めるために、放棄されました。
でsettings.pyによって設定ファイルDOWNLOAD_TIMEOUT(秒)のタイムアウト時間を指定します。
追加:爬虫類を終了する条件を指定します。
CLOSESPIDER_TIMEOUT
爬虫類の終了後の時間(秒)を指定します。CLOSESPIDER_ITEMCOUNT
爬虫類項目の指定された数の端部を把持した後CLOSESPIDER_PAGECOUNT
爬虫類の指定された数の最後に応答を受信するとCLOSESPIDER_ERRORCOUNT
エラーの指定された数は、爬虫類の最後に発生した後