1 はじめに
大学に通っていたとき、クラスメートが Web クローラーについて初めて話しているのを聞きました。当時、私は比較的世間知らずで無知でした。Web クローラーとは、Web ページ上を這い回って何かを捕らえる単なる電子バグだと思っていました。後から聞いた話では、コードを書くだけでWebクローリングが実現できるということで、非常に高級感があり、後で職場で聞いたところ、クローラなどを行っている会社が捕まったという話を聞きました。長い間、クローラーはコードを書くことで実装されているように見えましたが、今日は思いつきで、コードを書かずに Web クローラーを実装できるかどうかを試してみました。そこで、今日の記事のテーマは、Jmeter に Web クローラーを実装する方法を紹介することです。ここではブログパークのホームページ記事をクロールする実践例を紹介します。
2. 爬虫類原理
Jmeter のクローラーの原理は実際には非常に単純で、Web ページにリクエストを送信し、返されたすべての href を抽出し、ForEach コントローラーを使用して URL トラバーサルを実装することです。この説明は非常にわかりやすいですか?ホン兄弟は以下にその操作方法を簡単に紹介します。
3. 小さな方法で自分のスキルをテストする
1. まず、クローラーの原理に基づいて Web ページにリクエストを送信する必要がありますが、Blog Park を例にして実践してみましょう。以下の図に示すように、ブログ パークへのリクエストを開始します。
自動テストを学びたい場合は、一連のビデオをお勧めします。このビデオは、Bilibili によって再生されるネットワーク全体でナンバー 1 の自動テスト チュートリアルであると言えます。同時にオンラインに参加している人の数は 1,000 人に達しました、また、収集してさまざまなチャネルで伝達できるメモもあります。マスター技術コミュニケーション: 798478386
2. 結果ツリーを見て戻り値を観察すると、次の図に示すように、中間に多くの href タグとテキスト タイトル URL があることがわかります。
3. 次に、これらの URL を抽出し、強力な正規表現を使用する必要があります。以下に示すように:
4. 上の図からわかるように、必要なものが抽出されました。ここで、Hongge は正規表現抽出機能を追加します。図に示すように、一致する数値に -1 を入力することを忘れないでください。これは、すべての適切な URL を抽出することを意味します。以下。:
5. 次に、次の図に示すように、デバッグ サンプラーを追加し、jmeter を実行して、必要なものが実際に取り出されているかどうかを確認します。
6. または、結果で通常のマッチングを直接使用することもできます。次の図に示すように、多くの Web リンクが取り出されていることがわかります。
7. 次に、ForEach コントローラーを使用する必要があります。このコントローラーを使用して、抽出されたすべての URL を走査してトリガーします。次の図に示すように、コントローラーに変数名を忘れずに入力してください。これは、先ほどの正規表現の変数名です。
8. 次の図に示すように、ForEach コントローラーの下に別の http リクエストを追加し、それを使用してリクエストのトリガーを実行します。
9. Jmeter を再実行すると、結果が観察され、奇跡を目撃することができます。結果を観察すると、次の図に示すように、一致するすべての URL がトリガーされたことがわかりました。
10. 以下の図に示すように、クロールした記事を見やすくするために HTML を変更します。
この時点で、Jmeter の Web クローラーの最初の部分は終了しました。非常に簡単ではないでしょうか? 行って試してみてください!
4. まとめ
正規表現に注意してください。先頭に疑問符がないため、URL にターゲットの文字列が含まれることになり、リクエストが失敗します。また、https には s が付いていることに注意してください。そうでないと失敗します。ここではブログパークのトップページにある記事のみをクロールしますので、興味があればご自身で試してみて、1ページ目、2ページ目、3ページ目の記事をクロールしてみてください。