オリジナリティーは容易ではない この記事は盗作・転載を禁止します 長年の実際のクローラー開発経験をまとめています 侵害は調査しなければなりません!
1. 爬虫類のタスク
タスクの背景: インターンシップ僧侶の Web サイトから Python インターンシップ データをクロールする
タスクの目的: 解析ライブラリ Beautiful Soup を使用して Web ページを解析し、必要なデータを取得する
2、分析
まず、下の図に示すように、Shixiseng 公式 Web サイトのトップページにアクセスします: https://www.shixiseng.comで、Shixiseng IT Internet の Python インターンシップ情報をクロールします。ページの一番下にスライドして、次のページに移動し、次の図に示すように、URL の規則に従ってください。 上の URL からわかるように、page=? のみが指定されています。これは変更されました。クリックして、対応する詳細データを表示します: https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList
次に、下の図に示すように、対応するソース コードのプロパティを確認します。
上の図に示すように、このフィールドのデータは非表示です。おそらく、Web サイトのデータを簡単に取得したくないのでしょう。これらのデータはは彼にとってより重要です、したくないです 簡単に取得できるようにするため、アンチクロールが
直接実行すると、次の図に示すように、データはクロールされません:
アンチクロール技術: 実際、これはコーディングの問題です。以下の図に示すように、「utf-8」エンコーディングなどのコーディング手法を使用してこれらのデータを表現し、対応するデータ部分を選択したエンコーディング手法に置き換えるだけで済みます。上の図に示すように、関連
データは「utf-8」エンコーディングの形式で表示され、
関数 hack_number() を作成します。数値をデコードしたものを使用します。
次に、クリックした URL を観察します。ここではデータをクロールして
います。最初に幅を、次に深さで
関連するコードを作成した後、実行結果を確認します。
3. ソースコードのダウンロード
CSDN ソース コードのダウンロード リンク:ソース コードをダウンロード
オリジナリティを高めるのは簡単ではありません。役に立ったと思ったら、高評価をいただければ幸いです。ありがとうございます。
4. 著者情報
著者: Xiaohong の釣り日報、目標: プログラミングをもっと面白くする!
アルゴリズム、爬虫類、Web サイト、ゲーム開発、データ分析、自然言語処理、AI などに焦点を当てます。ご注目をお待ちしております。一緒に成長し、コーディングしましょう!
転載指示: この記事は盗作と転載を禁止しており、侵害があれば調査する必要があります。