爬虫類 - 登山絵

プロジェクトの下、新たな画像ディレクトリ


インポート要求
pyqueryインポートpyquery AS PQから
#は自動的にブラウザのユーザーエージェント要求ヘッダを生成
fake_useragentインポートユーザーエージェントから
#アナログブラウザリクエストヘッダ
ヘッダー= {
  #要求タイプ
  「受け入れる」:「text / htmlの 、アプリケーション/ XHTML + xmlの、アプリケーション/ XML; Q = 0.9、画像/ WEBP、画像/ APNG、* / *; Q = 0.8、ファイルアプリケーション/署名交換; V = B3」、
  #ブラウザの種類は、(いくつかのURLサーバは、ポケット加工ブラウザを検出し、種)ランダム発生型ブラウザとすることができる
  「ユーザーエージェント」:.ユーザーエージェント()ランダム
}

#グラブ各テーブル画像のURL

index_data DEF(ページ):
  URL =「https://www.169tp.com/gaogensiwa/list_3_{}.html'.format(page)
  ホームのデータ取得
  応答= requests.get(URL、ヘッダ=ヘッダ).content .decode( 'GBK')
  は、ページデータの初期化
  DOC = PQ(レスポンス)
  必要なレベルのブロックリストの<a>をフェッチ#を


  データ= DOC( 'product01リチウムのA ')項目()。
  #遍历A获取HREF链接
  iについてのデータで:
    detail_url = i.attr('のhref')
    detail_data(detail_url)

#詳細]ページのURLを取得 

DEF detail_data(URLの)
  応答= requests.get(URLやヘッダー=ヘッダ).content.decode( 'GBK')
  DOC = PQ(応答)
  img_url = DOC( 'big_img P IMG')項目()。
  iについてimg_url中:
    IMAGE_URL = i.attr( 'SRC')
  download_img(IMAGE_URL)


カウント= 0

保存画像番号の
DEFのdownload_img(IMAGE_URL):
  グローバルCOUNTの
  レスポンス= requests.get(IMAGE_URL、ヘッダ=ヘッダ).content
  #ファイルの保存
  、オープンで( '画像/ { } jpg'.format(数)、' AB「)などF#B進ライト追加ファイル
    f.write(応答)
  COUNT = + 1。

#20 /ドメイン名の前エキスは、観測されたページネーションを変更します


iについての範囲(1、20):
  index_data(I)

おすすめ

転載: www.cnblogs.com/webster1/p/12592765.html