Web クローラー|入門用の練習モンク (アンチクロールのコーディング)

オリジナリティーは容易ではない この記事は盗作・転載を禁止します 長年の実際のクローラー開発経験をまとめています 侵害は調査しなければなりません!

1. 爬虫類のタスク

タスクの背景: インターンシップ僧侶の Web サイトから Python インターンシップ データをクロールする
タスクの目的: 解析ライブラリ Beautiful Soup を使用して Web ページを解析し、必要なデータを取得する

2、分析

まず、下の図に示すように、Shixiseng 公式 Web サイトのトップページにアクセスします: https://www.shixiseng.comで、Shixiseng IT Internet の Python インターンシップ情報をクロールします。ページの一番下にスライドして、次のページに移動し、次の図に示すように、URL の規則に従ってください。 上の URL からわかるように、page=? のみが指定されています。これは変更されました。クリックして、対応する詳細データを表示します: https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList

ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入


次に、下の図に示すように、対応するソース コードのプロパティを確認します。
ここに画像の説明を挿入
上の図に示すように、このフィールドのデータは非表示です。おそらく、Web サイトのデータを簡単に取得したくないのでしょう。これらのデータはは彼にとってより重要です、したくないです 簡単に取得できるようにするため、アンチクロールが

直接実行すると、次の図に示すように、データはクロールされません:
ここに画像の説明を挿入
アンチクロール技術: 実際、これはコーディングの問題です。以下の図に示すように、「utf-8」エンコーディングなどのコーディング手法を使用してこれらのデータを表現し、対応するデータ部分を選択したエンコーディング手法に置き換えるだけで済みます。上の図に示すように、関連
ここに画像の説明を挿入
データは「utf-8」エンコーディングの形式で表示され、

関数 hack_number() を作成します。数値をデコードしたものを使用します。
ここに画像の説明を挿入
次に、クリックした URL を観察します。ここではデータをクロールして
ここに画像の説明を挿入
います。最初に幅を、次に深さで

関連するコードを作成した後、実行結果を確認します。
ここに画像の説明を挿入

3. ソースコードのダウンロード

CSDN ソース コードのダウンロード リンク:ソース コードをダウンロード

オリジナリティを高めるのは簡単ではありません。役に立ったと思ったら、高評価をいただければ幸いです。ありがとうございます。

4. 著者情報

著者: Xiaohong の釣り日報、目標: プログラミングをもっと面白くする!

アルゴリズム、爬虫類、Web サイト、ゲーム開発、データ分析、自然言語処理、AI などに焦点を当てます。ご注目をお待ちしております。一緒に成長し、コーディングしましょう!

転載指示: この記事は盗作と転載を禁止しており、侵害があれば調査する必要があります。

おすすめ

転載: blog.csdn.net/qq_44000141/article/details/121480796