Pythonの爬虫類(A):爬虫類迷彩

1はじめに

いくつかのためにサイトの比較的強い収益の一定の大きさや性質があり、ほとんど常に、一般的にいくつかの抗クライミング対策、抗クライミング対策を行い、2があります。一つは、バグに直接認証を行うことですドアに取得するには、他のです知っていると返すことが困難な昆虫のための抗登る機構のサイトの設定品種。

2迷彩戦略

私たちは、サイトのサイズが小さいのも、いくつかは、通常、認証要求ヘッダなどの検査のための訪問者のアイデンティティに、そしてある程度の規模のサイトでそれらのために言及するだろうことを知っています。したがって、私たちが正常に爬虫類をクロールするために、データ情報を必要な、我々は爬虫類の迷彩を聞かせする必要があり、同じようにアクセスするために、通常のユーザのようになっ爬虫類の動作をさせるために、単純です。

2.1リクエストヘッダの問題

私はBaiduの検索163メールボックスを使用して実証するために、

情報要求を見てF12ツールを使用します

上の図では、我々はヘッダが2のRefererとUser-Agentが属性情報を含む要求を見ることができ、リファラーの役割は、ページがユーザエージェント、中国のユーザーエージェント、各地からリンクされているページのサーバーを伝えることです、それはあります特殊な文字列の先頭、サーバーは、ユーザーのオペレーティングシステム、CPUの種類、ブラウザやその他の情報を識別できるようにすることです。通常の治療戦略は次のとおりです:1)サイト上でリファラーをチェックするには、プラス2)各要求のために追加されたUser-Agentを。

2.2 IP制限

時には我々は、長期的または大規模クロールのためのサイトのいくつかを持ってクロールし、私たちは基本的なIPを変換していないときに、このしきい値を超えると、一部のサイトでは、それがかもしれない、アクセス頻度やIPの数を監視することができることしたがって、それらを遮断、爬虫類として認識し、この場合には、我々は戦略断続的なアクセス権を取らなければなりません。

通常、私たちは、このアプローチは、一般的にIP変換をクロールしていないが、いくつかの特別な場合があり、長い中断のないクロールにウェブサイト上で、我々はIPの道エージェントを導入する必要があるかもしれませんが、お金を使う可能性があり、当社の支出を増加させます。

3概要

、得られた情報は不完全である、無関係な情報を取得し、いない情報:私たちがクロールされたとき、ときどきリクエストヘッダが行われてきたが、成功していないものを偽装、結果は次のような状況に表示されることがありますこのケースでは、我々は、抗クライミングサイト、その詳細な分析のメカニズムを研究する必要があります。私はいくつかの共通のルックを列挙されています:

1)不規則情報:通常セレン(アナログブラウザを使用長いリストのURL情報の数、上のルールがない、低い効率)溶液;
2)動的チェックコード:例えば、時間および他の数に応じて私たちは、最大クラックするためにそのルールを見つける必要があると思われる場合には、カスタムルールを生成する;
3)動的相互作用:ページと対話する必要性を検証することが、セレンを使用して解決することができる;
非同期4)負荷バッチでこのような状況が取得されます情報は、不完全であってもよいセレンを用いて解くことができます。

おすすめ

転載: www.cnblogs.com/ityard/p/11621311.html
おすすめ