ネットワークのクローラサイズ
1.クロールページ、楽しい小の目的のためのページは、少量のデータを要求関数ライブラリを使用して達成することができるクローリング速度に敏感ではない(90%)
、1つまたは複数の旅行サイト、ライブラリScrapyを使用することができます敏感な大規模クロール高速のデータ要件として取得爬虫類の目的のためにウェブサイトのウェブサイトやシリーズをクロールクロール2.
3.スピードキーをクロールする大規模な検索エンジンの目的のために、ネットワーク全体をクロール、必要性のカスタム開発
持参のウェブクローラに関連する問題
全体的には、次のとおりです。嫌がらせ、法務リスク、プライバシーの喪失
関数が迅速に使用することができます。1.爬虫類は、サーバコンピュータにアクセスし、それが百来たりしても千倍以上、人間速度よりも、書き込みのレベルや目的によって制限され、Webクローラーは、巨大なリソースのオーバーヘッドのウェブサーバーになります。関係サイト、ハラスメントの爬虫類のフォームを実行します。
2.クローラは、法的リスクをもたらすでしょう。利益のためのデータを取得するためのWebクローラは、法的リスクをもたらす場合は、サーバー上のデータは、すべてのシーナのルールシーナのニュースとして、財産の所有権を持っています。
3.クローラは、プライバシーの損失を引き起こす可能性があります。ウェブクローラは、単純なアクセス制御を突破する能力を持っている、または個人データのプライバシーの開示ように保護する必要があります。
III。Webクローラーの制限
出典レビュー:ユーザエージェントの制限を決定するために、
点検訪問HTTPプロトコルヘッダのUser-Agentフィールドは、アクセスのみに応答し、ブラウザやクローラに優しいです。
お知らせ:ロボット契約
すべては、爬虫類の遵守を要求するウェブサイトのクロール爬虫類の方針を語りました。
四.Robots合意
役割:ウェブサイトはページをクロールすることができクローラを伝え、何はしていません
フォーム:サイトのルートディレクトリにrobots.txtファイル。
ここで私はオープンJingdongはロボット契約の例を作っhttps://www.jd.com/robots.txt
次の単語を表示します
考えられます