悪意のあるクローラ保護 | JD Cloud テクニカル チーム

導入

Web サイトのリクエスト ログを注意深く分析した場合は、クローラー トラフィックである可能性のある不審なトラフィックが必ず見つかるでしょう。Impervaが発表した「2023 Imperva Bad Bot Report」によると、2022年のインターネットトラフィック全体の47.4%がクローラートラフィックになるという。これは、2021 年の 42.3% と比較して 5.1% の増加です。このクロール トラフィックのうち、30.2% が悪意のあるクローラーであり、2021 年の 27.7% から 2.5% 増加しました。

国内外の公開データから、悪意のあるクローラーは、伝統的な業界、汎インターネット、政府、企業、金融など、ほぼすべての業界に出現し、さまざまな程度のクローラーによる攻撃を受けていると結論付けることができます。クローラーのトラフィックは年々増加し続けています。

通常のクローラのほとんどは生産性の向上に役立ちますが、悪意のあるクローラはデータ漏洩を引き起こすだけでなく、通常のユーザー エクスペリエンスに影響を与えます。適切なクローラ対策サービスは悪意のあるクローラを特定してブロックすることができ、JD Cloud WAFの BOT 管理はさまざまなクローラ保護機能を提供します。

悪意のある爬虫類の危険性

クローラー (Web クローラー) は、Web クローラー、Web スパイダー、または Web スパイダーとも呼ばれ、インターネット上の Web コンテンツを自動的に取得し、そこから情報を抽出するために使用される自動化されたプログラムまたはスクリプトです。

クローラーは、合法的なクローラーと違法なクローラーまたは悪意のあるクローラーに分類されます。合法的なクローラーは、ネットワーク倫理と法律を遵守し、合法的かつ準拠したフレンドリーな方法で動作する Web クローラーです。データを収集して情報を取得する場合、これらのクローラーは Web サイトの robots.txt プロトコルに従い、Web サイトのプライバシー ポリシーと利用規約を尊重し、関連する法律と規制を遵守します。正規のクローラーの目的は通常、Web サイト上で公開されている情報を収集することであり、クロールの頻度と速度は合理的で制御可能です。これらのクローラーの使用は Web サイトのアクセス ルールに準拠しており、Web サイト上で深刻な帯域幅の圧迫やリソースの浪費が発生することはありません。たとえば、Baidu、Bing など、私たちが普段使用している検索エンジンとクローラーは切り離すことができません。検索エンジン クローラーは、毎日インターネット上の大量の Web ページをクロールして、分析、処理、収集を行っています。並べ替えにより、関連する Web ページのスナップショットがユーザーに表示されます。

悪意のあるクローラーは、オンライン倫理と法律を遵守せず、違法、破壊的、または有害な方法で動作する Web クローラーの一種です。これらのクローラーは通常、サイトの robots.txt プロトコルに従わず、サイトのプライバシー ポリシーを尊重せず、サイトの利用規約やサービス契約にも従いません。悪意のある爬虫類の目的には次のものが含まれますが、これらに限定されません。

  • 脆弱性の検出: 攻撃者はクローラーを使用して Web サイトをスキャンし、Web サイトの権限を昇格させたり、バックドアをインストールしたりするために使用される脆弱性を見つけます。
  • データの盗難: 攻撃者はクローラーを導入して、Web サイトの機密データ、個人情報、企業秘密などを違法に取得します。これらのデータは、詐欺、スパム、個人情報の盗難、その他の望ましくない目的に使用される可能性があります。
  • チケットのスワイプと羊毛の収集: 攻撃者はクローラーを使用してクーポンを奪い、数秒で商品を販売します。これは活動の効果に影響を与えます。パスワード侵害: ユーザー アカウントにアクセスするためにパスワードを大規模にブルート フォース クラッキングまたはクラッシュし、Web サイト ユーザーのアカウント セキュリティに深刻な脅威をもたらします。
  • ブルート フォース クラッキング: 攻撃者は大規模なゾンビ ネットワークを使用して Web サイトを高速かつ大規模に攻撃し、サーバーの過負荷と帯域幅の浪費を引き起こし、Web サイトの通常の動作に影響を与えます。

要約すると、悪意のあるクローラーは、Web サイトの通常の動作から企業の通常の動作に深刻な影響を与えるまで、Web サイトと企業に深刻な影響を与えます。したがって、クロール対策サービスを展開して悪意のあるクローラーの要求をブロックし、Web サイトを脅威から保護することが非常に重要です。JD Cloud WAF Bot Management は、さまざまなクローラへの対処に効果的に役立つさまざまなクローラ保護方法を提供します。

悪意のあるクローラ保護 - JD Cloud WAF ボット管理

JD Cloud WAFボット管理は、クローラーの識別と分類をサポートし、検索エンジンのスパイダートラフィックを許可し、商品情報、フラッシュセール価格、在庫情報などのコアデータの悪意のあるクローリングをブロックするなど、ターゲットを絞ったトラフィック管理戦略を採用しています。悪意のあるロボットのクローリングによって引き起こされるリソースの消費とクエリのビジネス データが含まれます。

JD Cloud WAF は、共通のクローラ UA ライブラリを提供し、11 カテゴリの何百もの商用クローラに対する保護を提供し、そのようなクローラを迅速かつ効率的にブロックできます。

JD Cloud WAF は、悪意のある IP 罰を提供し、Web 攻撃保護と組み合わせ、ビッグデータ アルゴリズムを使用して、悪意のある IP スキャン動作をタイムリーに特定してブロックし、スキャンの欠落やファイル トラバーサルなどのクロール動作を効果的に防止します。

JD Cloud WAFアンチクローラーエンジンは、アルゴリズムとモデルを使用して Web サイトのリクエスト トラフィックを自動的に学習および分析し、ルーズ、ノーマル、ストリクトの 3 つのレベルの保護モードを提供し、構成の監視、人間とコンピューターの対話、傍受とカスタム ページへの復帰をサポートします。 、など データ クローラーやクーポン スクレイピング クローラーに対する効果的な保護。

JD Cloud WAF はアカウントのセキュリティを提供し、抽出リクエスト内のアカウント番号とパスワードを自動的に分析することで、脆弱なパスワードの検出、ブルート フォース クラッキング、クレデンシャル スタッフィング攻撃を効果的に防止します。

JD Cloud WAF は、クラウド上で悪意のある動作を伴う IP アクセスを傍受できるIDC 脅威インテリジェンスを提供し、検索エンジン スパイダーを装ったクローラー リクエストを傍受できるフェイク スパイダーインテリジェンスを提供します。

JD Cloud WAF は、ブラウザを装った悪意のあるクローラーのリクエスト動作を識別できる偽の UA スコアを提供します。

JD Cloud WAFは、カスタムBOTルールを提供し、複数の条件の重ね合わせをサポートし、フロントエンド技術と脅威インテリジェンスを同時に重ね合わせることができ、多次元の頻度統計と組み合わせることで、さまざまなビジネスシナリオにおけるクローラの動作を柔軟にサポートできます。攻撃と防御の対立のための強固な基盤を提供します。

2023 年上半期、JD Cloud WAF は、クラウド上の多くの顧客を数億のクローラー攻撃から保護するのに役立ち、攻撃のピーク QPS は 20W+/s に達しました。攻撃の手段と目的もさまざまで、セル基地局の IP プールにリンクするもの、通常のユーザーを装うもの、通常のスキャン検出、クーポンのスキャン、特別オファーのスキャン、商品価格のクローリングなどがあります。

少し前に、クラウド WAF でクーポンを送信する顧客がいましたが、当初は、Brush がパブリック クラウドの機能サービスとクラウド ホストを使用してクーポンをスワイプしていましたが、顧客はクラウド WAF の IDC 脅威インテリジェンスを開くことで簡単に対処できました。 ; Brush は戦略をアップグレードし、セル基地局の IP プール偽装を使用しました。多数の Chrome ブラウザ ユーザーがクーポン インターフェイスを要求し、顧客にアンチクローラー エンジンを有効にしてカスタム ボット ルールを構成するよう案内します。通常のピーク QPS は次のとおりです。わずか 2K、クーポン発行時のピーク QPS は 11W に達します。5 分以内に 1405W のリクエストが受信され、クラウド WAF が 1401W をインターセプトしました。このうち、59% がクローラ対策エンジンによって識別され、38% がカスタム BOT ルールによってブロックされ、3% が脅威インテリジェンスによってブロックされ、悪意のあるクローラの識別およびブロック率は 99.7% に達しました。

要約する

インターネット上のトラフィックの半分はクローラーからのものです。Web サイトでクローラーの動作が検出されない場合、または Web サイトが悪意のあるクローラーによって攻撃されている場合は、クラウド WAF のクローラー管理を試すことができます。クローラー攻撃を保護するのにも役立ちます。詳細については、公式 Web サイトのドキュメントを参照してください。

 

著者: 李文強、JD Technology

出典: JD Cloud 開発者コミュニティによる転載。出典を明記してください

中学3年生がWindows 12のWeb版deepinを書いた- IDEが正式デビュー、「真の独立研究開発」として知られる 同時に更新され、基礎となるNTアーキテクチャはElectron 「紅蒙の父」王成陸 基づく: 紅蒙 PC 版システムは来年開始され、文心は全社会に公開されます3.2.0 正式リリースグリーン言語 V1.0 正式リリース
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4090830/blog/10108155