どのように爬虫類の速度の合理的な制御

スタッフは爬虫類の速度が早いほど良いではない、爬虫類を認識しています。より簡単に、より速く収集爬虫類が発見された場合は、より簡単にIPをブロックしました。だから、どのように合理的な制御爬虫類スピード?
一般的には、サーバへのない負担が、それは頻繁なアクセスに対して閉鎖されないように、各ページのクロールの間の最大遅延設定の周波数を制御することが可能です。しかし、このアプローチは、タスクの数が多い場合は、真剣に効率に影響を与えますクロール、ゆっくりとクロールにつながることができます。
そこ自然のソリューションは、動的遅延、最小時間間隔マイナスページを読む時間を変更することがあるので、ネットワークスムーズや貧困ネットワークの面でページが最小時間間隔であるとき。しかし、この方法は、小スケールのシングルスレッドクローラサイトにのみ適しています。
もう一つの方法は、それがあまりにも高速であり、彼らは、遅延時間が増加する時期爬虫類、爬虫類の速度を制御することができPID制御アルゴリズムに、ない計算方法です。速度が遅すぎる場合には、遅延時間が自動的に削減されます。
上記爬虫類の速度を制御するための簡単な紹介で、すばやく効率、異なるIPに切り替え、連続取得を改善するために、プロキシIPを使用することができ、キャプチャすることはできません。フラッシュ爬虫類クラウドエージェントは良いヘルパー、IP回線の安定性、簡単な操作とリーズナブルな価格です。

おすすめ

転載: blog.51cto.com/14338698/2404709