Pythonクローラーを学ぶと、オンラインの画像素材は無料になります

序文

この記事のテキストと写真はインターネットからのものであり、学習とコミュニケーションのみを目的としています。商用目的ではありません。著作権は原作者に帰属します。ご不明な点がございましたら、お問い合わせください。

著者のpythonラーニングサークル:1156465813に参加してください。無料で入手でき、すべての情報はグループファイルにあります。Pythonの実践的な演習、PDFの電子文書、インタビューのハイライト、学習資料などを含むがこれらに限定されない資料を収集できます。

 

1.プロジェクトの背景

マテリアルネットワークで適切な画像を見つけたい場合は、ページごとに下にスクロールする必要があります。pythonを学習したので、プログラムを使用してすべての画像を保存し、適切な画像をゆっくりと選択できます。

 

2.プロジェクトの目標

1.指定されたURLに従ってWebページのソースコードを取得します。

2.正規表現を使用して、ソースコード内の画像アドレスを除外します。

3.フィルタリングされた画像アドレスからマテリアル画像をダウンロードします。

 

3.関係する図書館とウェブサイト

1.URLは次のとおりです。

https://www.51miz.com

 

2.関係するライブラリ:

リクエスト、lxml

第四に、プロジェクト分析

まず、次のページのURLをリクエストする方法の問題を解決する必要があります。次のページのボタンをクリックして、次のようにWebサイトの変更を確認できます。

https://www.51miz.com/so-sucai/1789243.html

https://www.51miz.com/so-sucai/1789243/p_2/

https://www.51miz.com/so-sucai/1789243/p_3/

画像のページ数は1789243 / p {}であり、p {}の中括弧内の数は画像のどのページを示していることがわかります。

5.プロジェクトの実施

1. Mizhi.comを開き、検索に必要な写真素材を入力します(例としてラットの年の写真を撮ります)。

 

2.前のステップでのURLの分析に従って、最初にImageSpiderと呼ばれるクラスを定義します。これは、初期化関数を定義し、応答データ関数、分析関数、およびメイン関数を取得するための要求を送信します。最初に関数を初期化し、URLアドレスとヘッダーを準備します。コードを次の図に示します。

3.対応するデータ関数を取得するための要求を送信します。

 

4.データを分析し、xpathを使用してセカンダリページのリンクを取得し、最後に画像をフォルダに保存します。Google Chromeを使用して開発者ツールを選択するか、F12キーを直接押して、必要な画像srcがimgタグの下にあることを確認します。そのため、Pythonリクエストを使用してコンポーネントを抽出します。

 

5.主な機能であるコードを下図に示します。

 

6、エフェクト表示

1.プログラムを実行し、次の図に示すように、コンソールにクロールするページ数を入力します。

2.次の図に示すように、効果の画像をローカルで確認できます。

 

やっと

Pythonを学びたい、またはPythonを学んでいる場合は、Pythonのチュートリアルがたくさんありますが、それらは最新のものですか?2年前に人々が学んだことを学んだかもしれません。2020年の最新のPythonチュートリアルの波を共有しましょう。私の学習サークルに参加してください:1156465813、あなたは学習資料を受け取ることができます

おすすめ

転載: blog.csdn.net/qq_38887171/article/details/109129543