アンチ収集および抗爬虫類の共通戦略とソリューション

 

1 制限 IPの訪問の頻度、並びに時間の単位を

 

背景:同じWebサイトには普通の1秒のアクセス N回(それは同じページではありませんか)

 

ソリューション一般に、これは、我々はあなたが追加するコードを書くかどうか、コレクションの頻度が遅くなりますが起こる我々はタコを解決することができますする間隔をスリープ、または設定します

 

進化 1:あなたは、このような毎秒一回として、同じ周波数にされている場合はアンチ収集ポリシーおよびいくつかの高ポイントは、彼も、各要求の頻度を監視し、彼はまた、密閉されます。

 

解決策:この状況は、一般的に、我々は、区間内のコレクション内の各ランダムアクセスの相対的頻度を乱数を追加する必要があります。

 

進化 2:より多くの残忍な抗買収戦略のいくつかは、彼も一日やページが要求されるたびごとにIPの数を監視します。彼は、データ分析を通じて、一般的にどのように多くのページを、彼は同じ手紙をした以上の場合は彼の本当のユーザーは一般的に、彼に最高のアクセスを知ることができますので。

 

 

解決策この状況は唯一のマルチを使用します解決するためにIPまたは複数のサーバは、多くの異なる仮想端末アクセス、リソースへのアクセスが折半しました。タコも保護するために究極のパッケージ、クラウドサーバークラスタでこのプロキシIPプールで提供します。

 

2 コード

 

背景:最後にあなたを識別生まれキャプチャは、人や機械の成果物であります

 

やって解決法を:

 

このトリックは、追加の混乱が市場に画像認識技術を打破すべく、より多くの奇妙なコード、最も古典的には、考慮すべきことができたとしても、トリック腐っ使用し、今通常の検証コードされる 12306代わりに確認コード。しかし、これらの中国の慣用句、中国語、数学などを含む、より複雑なコードは、すべての法律を破るあります。この世界は、プラットフォームがコーディングされているので、あなたが確認コードを入力して助けるために人工的なプラットフォームの一種です。

 

 

 

タコは1人の二つの特別な極端な少数を除いて、クラックコードの大多数のサポートを内蔵しており、今法律を破るために世界中で見つけることができない、他の人がサポートされています。

 

 

3 ユーザーがでログオン COOKIE Webコンテンツにアクセスするために

 

背景:アカウントによってあなたのアクセス許可を制限します

 

ソリューション

一般的には、我々は唯一の限り、あなたは対応するアカウントのパスワードを提供できるよう、タコはウェブサイトに運転行くをシミュレートすることができ、あなたがデータを取りに行くことができ、タコの上陸作戦を収集する必要があります。アカウントをお持ちでない場合は、何もアップに行うことができません。同様に ITオレンジ、あなたがアカウントを持っていない、あなたは、最初の1000件のデータをのみ見ることができます。あなたはより多くのデータを見ることができ、そのSAASアカウントにのみ支払います。

 

1進化:アカウントが動作しない場合でも、

 

ソリューション

Jingdongはコメントのように、あなただけの最新見ることができる 1000。すぐにこの時間、それはタコのタイミング取得を過ごすために必要であり、我々は特定の周波数を監視し、新しいデータ収集ダウンは、フォローアップおよび蓄積を維持します。

 

4 使用して JS 暗号化されたWebコンテンツを

 

背景:ブラウザの計算結果JSのWebコンテンツ

 

ソリューション

このトリックは、に対処する上で HTTP POSTリクエスト時に、複雑さとトリックの難易度を増加させる方法です。それは、データを取得し、ウェブページのデータを解析するJSを呼び出すコードを実行するためのページを開きますときには、この対立は、内蔵のブラウザウェブページデータにアクセスするにはタコ、タコ生まれています。だから、これは周りに渡さ入れやすいJS操作は、付属しています。

 

コードまたは貫通一般クローラー技術HTTP要求モードでは、この種のは、彼はJSが暗号化を解除する必要があるコードを書くことで学生を周りの周りに開いて、収集されない方法です。

 

5 リンクのランダム化

 

背景:Webページのリンクは、同じページに複数のリンクをランダム化し、異なる状況下でリンクを作成します

 

ソリューション

 

この場合は、一般的には、アナログの人々がコンテンツページに、リストに行く、そのようなホームページとして、訪問ソースアクセスから開始するために私達に尋ねました。彼はホームアドレスがランダムバーできない、ランダム化されたページ内リンクします。これは単にクラックするために、現状を維持します。

 

進化 1:ページのアドレスを生成するスクリプトを使用して

 

タコブラウザの前でこのような状況、だけでなく、すべてではほとんど効果。タコは、人間の行動のシミュレーションであるので、彼はページを生成しない限り、アドレスは人々にアクセス権を与えることはないか、あるいは、まだ採掘します。

 

6 混乱見えない要素を高めるページ

 

背景:従来のデータ分析ページが構成されているデータは、正規表現の文字列と、正位置で一致しています。だから、難読化されたコードやテキストを高め、あなたの亀裂の難しさを増す、あなたはトラブルを高めます。:私は読み解決するための時間のうちのページを見ている「その後、彼らは私Diaoの撮影する必要があり、選択していない、選択しないでください」

 

解決策:によって主にタコので仕方のXPATHの場所、XPATHの前にあるこの小さなトリック、それは簡単にバイパスされました。大したことは、我々は、文字列置換、一定のルールによって、いくつかの混乱した文字セグメントは、缶を交換します。結局のところ、Web開発者は、難読化コードは、特定の法律の左に従うことであるままにしておきます。

 

7 ランダムなウェブサイトのテンプレート

 

背景:増加した入手困難、ページの同じタイプが、ショーへのさまざまなテンプレート

 

ソリューション:これは主に忍耐である、私はページング一覧ページを見ている、単数ページは、ページ数の2倍が別である、または定期的にある、テンプレートであるすべての別の10。私たちははっきりと観察の収集を開始するときに必要です。しかし、これは、我々は、データマイニングではないだろう、一般的にテンプレートの、非常に優れた観察を持っています。

 

 

 

同じテンプレートをすることはできません、あなたは死ぬことの背後に良いフロント、1を選びました。矛盾によって引き起こされるほとんどは、テンプレートに表示されます。あなたは別のガイドタコ解析割れで、異なる特性によって、ページをロジック建てタコをすることができます分析します。

 

8 人工知能収集抗

 

背景:インターネット抗買収対策の99.9%を、と推定し、あちこちこの上でのいくつかを移動しているが、別の0.01%という、人々は激しいです。一部の大企業として、特殊な抗人工知能収集チームがあります。

 

彼らはトラックの一般的なユーザアクセス、またはトラックのユーザーの大半とは異なり、彼らはいくつかを行います、限り、あなたは自分のウェブサイトの軌道を訪問として、それはブラウザを取ることであるかどうか、あなたのWeb要求を認識し、またはリクエストの道を行くことができますこのようなように確認コード、または誤ったデータを増加させ、そしてなどの抗取得戦略。

 

ソリューション:私たちが必要としているこの時間は、より多くのような「男」操作買収を実施するためとして。例えば、我々は通常、ホームページを訪問し、その後、少しいくつかの位置は、それをドラッグして、リストページには、そのように上を見て、その後、詳細ページを入力し、。これらの人々のシミュレーション動作はどのように多くの自動ドロップダウンスクリーン、滞留時間、その上の位置を合わせると、を含む、タコ完成させることができます。

 

進化1:黒の確立 IPプール

 

一部の大企業は、黒確立する IPプールを、プールの家はすぐに拒否されたIPへのアクセスは、かつてでした。これは、一般的に白色IPアップに使用されている悪いことを言って、IP、またはいくつかの部屋IPの外に表示されています。そして、この時間は、機関のIPリソースの品質は、特に貴重です。

 

 

タコ品質のプロキシ IP設定インターフェイス

 

私の意見では、常に矛盾した問題の取得及び抗買収は、絶対的に収集されない、または絶対的に収集することができないと言います。内部のビジネスのこの行では、本当の問題は、そのような増加検証コードとして、給付の洗練された企業買収であるなど、IP、特に大量のデータの前に、このコストは時として非常に素晴らしいですが、オーバーヘッド必要なフォーマットの一部です。

 

パーティのサイトだけでなく、これによって、比較的バランスの取れた制御可能な範囲を達成するように、あなたのコレクションの取得原価の難易度を高めるために。私はいくつかのプロジェクトは、毎年数百万人を過ごすために必要な、プロジェクトを扱っていた、行うことができますタコは、最高のコストに、あなたがしたい場所に得るのを助けるためにIPや検証コード目的のデータへの取得費用の前にデータではなく、ゼロコストへ。

 

買収関連のチュートリアル

今日の見出しのデータ収集:

http://www.bazhuayu.com/tutorialdetail-1/jrtt-7.html

買収は(ほとんどの例を発見した知っている)ほとんどのトピックの情報を知っています:

http://www.bazhuayu.com/tutorialdetail-1/zh-ht.html

淘宝網の商品情報の収集:

http://www.bazhuayu.com/tutorialdetail-1/cjtbsp-7.html

米国のグループのビジネス情報の収集:

http://www.bazhuayu.com/tutorialdetail-1/mtsj_7.html

宝くじデータ収集:

http://www.bazhuayu.com/tutorialdetail-1/cpkjdatacj.html

小説収集方法の中国のネットワークの出発点だけでなく、詳細な手順:

http://www.bazhuayu.com/tutorialdetail-1/qidianstorycj.html

Amazonは、コレクションの口コミを

http://www.bazhuayu.com/tutorialdetail-1/ymxspplcj.html

 

タコ --90 万人のユーザーは、Webデータコレクタを選択します。

1、操作はシンプルで、誰でも使用することはできません。技術的な背景を、インターネットで収集することができるようになります。完全な可視化プロセス、操作、2分クイックスタートを完​​了するために、マウスをクリックしてください。

2は、強力な、任意のWebサイトを撮影することができます:、ランディングページ、識別コード、滝、ページのAjaxの非同期スクリプトのデータのロードをクリックして、簡単なセットコレクションによって行うことができます。

図3は、雲を収集し、シャットダウンすることができます。取得タスクがオフに設定することができた後に、タスクは、クラウドで実行することができます。24 * 7途切れない実行は、IP心配しないパンTaiyun取得クラスタは、ネットワークの停止をブロックされました。

4、オンデマンドのオプション、無料+付加価値サービスを提供しています。無料版は、ユーザーのコレクションの基本的なニーズを満たすために、すべての機能を備えています。(例えばプライベートクラウドなど)の付加価値サービスの数を設定し、同時に、高賃金のビジネスユーザーのニーズを満たします。

 

おすすめ

転載: www.cnblogs.com/haibo123/p/11294318.html