シンプルなPythonの爬虫類チュートリアル:バッチクロール写真

言うことができるPythonプログラミング言語は新しい言語、だけでなく、言語の過去2年間の比較的速い発展で、子供や大人が、この新しいプログラミング言語を学ぶことができるかどうか、今日南京小さな庭の王Pythonの訓練機関のシェアにPythonの爬虫類のチュートリアル。

 

  また、Webスパイダー、ウェブロボット、一般的なウェブクローラに分け爬虫類として知られているウェブクローラは、ウェブクローラは、インクリメンタルウェブクローラー、深層ウェブクローラ4を重視しました。「その名を昆虫」、私たちが知っている爬虫類は節足動物の無脊椎動物ではなく、自動的にWWW情報をクロールするコンピュータプログラムの種類、またはスクリプトプログラム、および一定の要件に従って処理することができますこれらの情報。

 

  C / C ++やJava、PythonやPHPと他の言語は、クローラを書き込むために使用することができるが、一般的に言って、ほとんどの開発者は、そう、今日のpythonを利用するようにお教えします、パイソン、PHPと他の言語の開発・クローラーを選ぶだろう非常にシンプルで実用的な爬虫類。

 

 

  爬虫類の原則

 

  我々は通常、ブラウザが運営するネットワークに必要な情報を見つけると、ブラウザは情報を格納するサーバーへの私たちの要求を送信し、サーバーがブラウザに要求されたデータを返します要求を受信した私を送っますデバイス。

 

1.jpeg

  話すの像点は、ブラウザがサーバーが私たちのコマンドを実行し始めた後に、私たち人間の言語の翻訳サーバが理解、聞くために、私たち人間の翻訳者と同等であり、その結果は、ブラウザに、ブラウザ結果を聞くと言われています私たち人間に変換します。そのため、サーバは継続的に対応するコマンドを実行するように、クローラは、常にブラウザによって送られた命令を模倣することです、そして、サーバが唯一のブラウザを理解することができるため、サーバーは、人間や爬虫類を送信するためのコマンドを知らない「言語」 。

 

  これはなぜ起こるのでしょうか?私たち人間は自分のコマンドは、あなたがいないことを確認してください?なぜ機械がそれをやらせますか?例:たとえば、あなたがトレーニングデータを大量に必要となる人工知能の画像識別を​​、やっている - 写真を、一つ一つは、あなたが右、イメージを手動でダウンロードすることができませんか?今回は爬虫類の役割が来ました!

 

2.jpeg

  Pythonの爬虫類原理

 

  たとえば、私たちは今、手動ダウンロード猫、犬の絵、この退屈なプロセスを置き換えるためのpython賢い選択と犬と猫のための猫の絵バッチ分類モデルの訓練を、つかむしたいです。

 

  Pythonでは、私たちは、犬の写真は内部のアドレスデータに保存され、サーバはいくつかのデータを返し、猫があるた後、ターゲットアドレスへの要求を開始requests.get(https://www.jkys120.com/)を使用することができます私たちは、絵やHTMLのタグに対処する必要があり、他の役に立たない情報の別々の、それはあなたが正則化法の一部が付属して再ライブラリを使用することができます正則化法に使用されます。

 

  最後に、我々はそれがurllibはライブラリrequest.urlretrieve()メソッドを使用しますが、お使いのコンピュータにファイルをダウンロードするURLを指定する必要があります。

 

  コードのチュートリアル

 

  まず、慣例により、我々はPYファイルにライブラリを置くために使用します。

 

  requestsimport jsonimport urllibimport再インポート

 

  そして、百度にここでは例の写真のために、私たちのクロールプログラムを書き始めるその下のノートでは、詳細なプログラム(アドレスバーに要求アドレスを、違いが唯一の単語キーワードです)。

 

3.jpeg

  requests_content textプロパティのテキストデータは、HTMLタグやJavaScriptのスクリプトコードの数を含むサーバーによって返されます。

 

4.jpeg

  これは、私たちが絵のアドレスを抽出するために、正則化法を使用するものです。

 

5.jpeg

  最後に、画像ファイルのURLをお使いのコンピュータにダウンロードされます。

 

6.jpeg

  業績

 

  ここではいくつかの一括ダウンロードコンピュータの壁紙、表情でどのような状況!

おすすめ

転載: www.cnblogs.com/zqw111/p/11347347.html
おすすめ